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No matter where you travel, it’s always nice to get home. 
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ABSTRACT 


Im heutigen Straßenverkehr ist neben zahlreichen formellen Regeln stets 
eine informelle Kommunikation zwischen Verkehrsteilnehmern zu be- 
obachten. Besonders Fußgänger sind auf die Interaktion mit anderen 
Verkehrsteilnehmern angewiesen und suchen beim Überqueren der Stra- 
ße Blickkontakt zu Autofahrern. Mit der zunehmenden Automation 
von Fahrzeugen und dem Einführen automatisierter Systeme wird diese 
Kommunikation zukünftig entfallen. 


Um auch automatisierten Fahrsystemen die Möglichkeit zu geben, mit 
Fußgängern zu kommunizieren, werden unterschiedliche Konzepte zur 
Fahrzeug-Fußgänger-Kommunikation evaluiert. Die im Rahmen dieser 
Arbeit durchgeführte Voruntersuchung mit 35 Teilnehmern und On- 
linestudie mit 709 Teilnehmern zeigen, dass Zeichen für eine Fahrzeug- 
Fußgänger-Kommunikation häufig nicht intuitiv sind und sogar bekann- 
te Symbole nur selten richtig gedeutet werden. In der Voruntersuchung 
ist lediglich ein Symbol intuitiv verständlich. Dieses Zeichen empfiehlt 
den Fußgängern anzuhalten und die Straße nicht zu überqueren. In der 
hier durchgeführten Onlinestudie werden zwei von neun untersuchten 
Symbolen intuitiv erkannt. Diese visualisieren die Nachricht „Vorfahrt 
gewähren“, während Zeichen für die Darstellung eines automatisierten 
Fahrmodus und zur Erkennung eines Fußgängers nur mit vorgegebenen 
Antworten signifikant verständlich sind. Die Onlinestudie zeigt weiter, 
dass Farben keine signifikante Unterstützung für die Verständlichkeit 
von Symbolen darstellen. Die einzige Ausnahme stellt dabei die bereits 
erlernte Farbe Grün für die Nachricht „Vorfahrt gewähren” dar. Dies 
verdeutlicht, dass Zeichen zur Fahrzeug-Fußgänger-Kommunikation 
nicht intuitiv interpretiert werden können und deren Bedeutungen erst 


gelernt werden müssen. 


ABSTRACT 


Eine Möglichkeit, Zeichen für eine Fahrzeug-Fußgänger-Kommunikation 
zu erlernen, ist die Symbole bereits im unassistierten Fahrbetrieb anzu- 
zeigen, damit Fußgänger die bestehende informelle Kommunikation mit 
der neuartigen Fahrzeugkommunikation verbinden können. Hierfür 
ist vor allem das Erkennen der Fahrerintention an Fußgängerüber- 
wegen notwendig, weshalb ein dreistufiger Algorithmus entwickelt 
wird. Dieser Algorithmus besteht aus einem rekurrenten neuronalen 
Netzwerk zur Prädiktion von fünf Signalen, einem Random Forest zur 
Interpretation dieser und einer Plausibilisierung bzw. Entscheidung, 
ob das Fahrzeug im Prädiktionshorizont von 2s anhalten wird. Für 
ein durchschnittliches Fahrverhalten können so Richtig-positiv Raten 
von 94,0% und Falsch-positiv Raten von 2,8% erreicht werden. Mit 
einer zusätzlichen Personalisierung auf fahrer- bzw. fahrzeugspezifi- 
sche Merkmale ist eine Prädiktion mit einer Richtig-positiv Rate von 
95,6% und Falsch-positiv Rate von 1,9% möglich. Das Anpassen des 
Algorithmus erfolgt dabei mittels Transfer Learning. 


Durch Kombination der angepassten Fahrerintentionserkennung und 
der entwickelten Fahrzeug-Fußgänger-Kommunikation können bereits 
heutige Fahrzeuge automatisiert mit Fußgängern kommunizieren. Da- 
durch können diese Symbole für zukünftige Fahrsysteme erlernt und 
somit die Akzeptanz der automatisierten Fahrzeuge gesteigert werden. 
Darüber hinaus wird die Kommunikation der Fahrer mit anderen Ver- 
kehrsteilnehmern unterstützt. 
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KAPITEL1 


EINLEITUNG 


Die automobile Lichttechnik wurde seit ihren Anfängen vor allem durch 
die Entwicklung sichtverbessernder Systeme geprägt, wobei in den ver- 
gangenen Jahren ein Trend hin zur Weiterentwicklung kommunikativer 
Signalfunktionen erkennbar ist. Bereits die ersten Fahrzeuge waren mit 
Scheinwerfern zur Sicht bei Nacht ausgestattet, welche im Laufe der 
Jahre mittels verschiedener Leuchtquellen, wie Halogen- und Gasent- 
ladungslampen oder LED- und Laserlichtquellen, verbessert wurden. 
Im Gegensatz dazu schritt die Entwicklung der Signalfunktionen von 
Fahrzeugen nach der Einführung der Blink-, Warnblink- oder Bremslicht- 
funktionen nur langsam voran. Auch außerhalb des Fahrzeugs wurden 
im Straßenverkehr beispielsweise Ampelanlagen in ihrer Grundfunktion 
seit Jahrzehnten kaum weiterentwickelt. Mit der Einführung von Pixel- 
lichtsystemen, Projektionsscheinwerfern und segmentierten Leuchten 
am Fahrzeug öffnet sich aktuell eine Tür zur Kommunikation und Inter- 
aktion des Fahrzeugs mit dem Fahrer, aber vor allem auch mit anderen 
Verkehrsteilnehmern. 


1.1 Hintergrund und Motivation 


Schon heute kommunizieren Verkehrsteilnehmer regelmäßig unterein- 
ander bzw. zeigen anderen ihre Intention mittels Signaleinrichtungen an. 


EINLEITUNG 


Zu diesen Signaleinrichtungen zählen bspw. Signalhörner, Bremsleuch- 
ten und Fahrtrichtungsanzeiger, die bereits seit Mitte des letzten Jahr- 
hunderts für Kraftfahrzeuge gesetzlich verpflichtend sind. Ursprünglich 
wurden die Zeichen zur Darstellung der Abbiege- oder Anhalteintention 
mechanisch mittels „Stopplaternen” und ausklappbaren Richtungsan- 
zeigern umgesetzt [1]. 


Neben formellen, gesetzlich geregelten Signaleinrichtungen des Fahr- 
zeugs haben sich im Laufe der Jahre auch informelle Zeichen zur Kom- 
munikation zwischen Verkehrsteilnehmern etabliert. In über 90 % der 
Fälle, in denen Fußgänger unter Anwesenheit anderer Verkehrsteilneh- 
mer die Straße überqueren möchten, kommunizieren sie mit diesen 
[2]. Dafür wird bspw. ein Blickkontakt aufgebaut, die Bewegung von 
Fahrzeugen und Fußgängern berücksichtigt oder eine Geste eingesetzt 
[1][3]. Neben Einschränkungen durch Sichtbarkeit der Zeichen, z.B. bei 
Dunkelheit oder schlechten Sichtverhältnissen [4][5], unterliegen diese 
Zeichen den persönlichen Normen der Verkehrsteilnehmer [4] und sind 
daher nicht universell verständlich oder von einheitlicher Bedeutung [3]. 


Fußgänger sind eine der gefährdetsten Gruppen des Straßenverkehrs, 
weshalb ihnen u.a. von der National Highway Traffic Safety Administra- 
tion (NHTSA) empfohlen wird, vor jedem Überqueren der Straße mit 
anderen Verkehrsteilnehmern zu kommunizieren und Augenkontakt 
herzustellen [6]. Rund 70-80 % der Verkehrsunfälle geschehen innerorts, 
wobei seit der Jahrtausendwende die Zahl der verletzten und getöteten 
Fußgänger sowohl absolut als auch relativ steigt [7][8]. Über 75 % der töd- 
lichen Unfälle mit Fußgängern geschehen nachts bzw. bei Dämmerung 
[7], was besonders mit schlechten Sichtverhältnissen zusammenhängt. 


Für das Vermeiden von Verkehrsunfällen, aber auch um eine erweiterte 
bzw. komfortablere Mobilität zu ermöglichen, werden aktuell automati- 
sierte Fahrzeuge entwickelt [9]. Eine Kommunikation mit anderen Fahr- 
zeugen, aber vor allem auch mit FußSgängern, wird bei automatisierten 


HINTERGRUND UND MOTIVATION 


Fahrzeugen weiterhin unbedingt notwendig sein, um den Verkehrs- 
fluss sicherzustellen, Vertrauen aufzubauen und Gefahren vorzubeugen 
[10][11]. Dies gilt insbesondere für Situationen an Fußgängerüberwegen 
[10]. Darüber hinaus fordert bspw. die Ethik-Kommission des Bundesmi- 
nisteriums für Verkehr und digitale Infrastruktur, dass stets erkennbar 
sein muss, ob der Fahrer oder das Fahrzeug in Verantwortung der Fahr- 
aufgabe steht [9]. 


Nicht nur automatisierte, sondern auch vom Fahrer gesteuerte Fahrzeu- 
ge können die neuartigen Kommunikationsmittel automatisierter Fahr- 
zeuge nutzen, um fahrer- und fahrsystemunabhängig mit Fußgängern 
zu kommunizieren. Mit Hilfe der Anzeige einheitlicher Zeichen durch 
das Fahrzeug ist eine eindeutige Fahrzeug-Fußgänger-Kommunikation, 
sowohl für automatisierte als auch für unassistierte Fahrzeuge, möglich. 


Ziel der Arbeit ist es deshalb, Zeichen für eine möglichst intuitive und 
verständliche Fahrzeug-Fußgänger-Kommunikation an Fußgängerüber- 
wegen zu finden und ein Kommunikationskonzept für automatisierte 
und vom Fahrer gesteuerte Fahrzeuge zu erstellen. Dabei sollen neben 
einfachen Zeichen auch Symbole und Farben zur verständlichen und 
aussagekräftigen Kommunikation untersucht werden. Außerdem soll 
eine Fahrerintentionserkennung an Fußgängerüberwegen umgesetzt 
werden, welche u.a. eine automatische Kommunikation mit Fußgängern 
ermöglicht und damit sowohl zur Standardisierung als auch zum Erler- 
nen der Zeichen beim unassistierten Fahren beitragen kann. Die Umset- 
zung der Fahrerintentionserkennung nutzt insbesondere Methoden des 
maschinellen Lernens und soll durch Interpretation der Verkehrssitua- 
tion und unterschiedlichster Sensordaten die Intention des Fahrers, an 
Fußgängerüberwegen anzuhalten, bestimmen. 


EINLEITUNG 


1.2 Aufbau der Arbeit 


Im folgenden Kapitel 2 werden die Grundlagen der Kommunikation, des 
automatisierten Fahrens und des maschinellen Lernens bzw. tiefen neu- 
ronalen Netzen zusammengefasst. Anschließend wird in Kapitel 3 der 
Stand der Technik zur Kommunikation im Straßenverkehr, der Fahrzeug- 
Fußgänger-Kommunikation und der (Fahrer-)Intentionserkennung auf- 
gezeigt. In Kapitel 4 wird die Kommunikation mit Fußgängern im Stra- 
ßenverkehr beschrieben und Anforderungen an die Kommunikation 
automatisierter Fahrzeuge gestellt. In diesem Kapitel wird nach einer 
Voruntersuchung zur Intuitivität von Zeichen und Dynamiken eine On- 
linestudie zur Evaluation der unterstützenden Wirkung von Farben 
auf die Verständlichkeit von Symbolen vorgestellt. In Kapitel 5 werden 
anfangs die Anforderungen an die Fahrerintentionserkennung an Fuß- 
gangertiberwegen definiert, um anschließend den mehrstufigen Aufbau 
eines Algorithmus zur Fahrerintentionserkennung an Fußgängerüber- 
wegen und einen für das maschinelle Lernen benötigten Datensatz zu 
beschreiben. Im letzten Kapitel 6 werden schließlich die beiden Konzep- 
te der Fahrzeug-Fußgänger-Kommunikation und der Fahrerintentions- 
erkennung zusammengefasst und eine mögliche Implementierung in 
aktuellen Fahrzeugen vorgeschlagen. Dies stellt einen Ausgangspunkt 
für zukünftige Untersuchungen dar. 


KAPITEL 2 


GRUNDLAGEN 


Dieses Kapitel beschreibt die Grundlagen für die Fahrerintentionser- 
kennung zur lichtbasierten Kommunikation mit Fußgängern. Hierfür 
werden zunächst die Grundlagen der Kommunikation und des auto- 
matisierten Fahrens erläutert, um anschließend einen Überblick zum 
maschinellen Lernen zu geben. Dabei wird insbesondere auf den Aufbau 
und die Funktionsweise von neuronalen Netzwerken und das Transfer 


Learning eingegangen. 


2.1 Grundlagen der Kommunikation 


Die Kommunikation zwischen Menschen hat sich über Jahrtausende 
entwickelt bzw. verfeinert und so ist es nicht verwunderlich, dass sie 
in allen Teilen des öffentlichen Lebens und insbesondere im Straßen- 
verkehr eine entscheidende Rolle einnimmt [4]. Der Straßenverkehr 
wird durch formelle Regeln bestimmt, doch ergänzen informelle Re- 
geln und Kommunikation zwischen Verkehrsteilnehmern das offizielle 
Regelwerk [3]. Obwohl Verkehrsteilnehmer auf frühere Erfahrungen 
zurückgreifen und auf eine Interaktion mit anderen verzichten, findet 
bei niedrigen Geschwindigkeiten fast immer eine Kommunikation statt 
[2][3][12]. Deshalb ist eine Kommunikation vor allem im Stadtgebiet und 
bei Begegnungen von Fahrzeugen und Fußgängern zu beobachten, z.B. 


GRUNDLAGEN 


beim Überqueren von Fußgängerüberwegen [12][13]. Verkehrsteilneh- 
mer kommunizieren vor allem, um den Verkehrsfluss aufrechtzuerhalten 
oder um Gefahren zu vermeiden [3][4]. Hierbei gilt jedoch, dass sie nicht 
standardisiert handeln und sich die Verhaltensweisen je nach Fahrer, 
Fußgänger und Situation unterscheiden können [14]. 

Risser [4] beschreibt, dass Kommunikation eine Verständigung zwi- 
schen zwei Kommunikationspartnern ist, die entweder bewusst oder 
im Rahmen eines Automatismus erfolgt. Hierbei möchte ein Partner 
den anderen anregen, sich auf das eigene Verhalten einzustellen [4]. 
Eine notwendige Voraussetzung für die erfolgreiche Kommunikation 
ist, dass beide Kommunikationspartner die gleiche Sprache sprechen 
und die Nachricht interpretieren können [15]. Diese Kommunikation 
ist keineswegs statisch, sondern verändert sich fortlaufend über Kom- 
munikationsprozesse [3]. Shannon beschreibt in [16] das sowohl in der 
Informationstechnik, als auch in der Kommunikation im Straßenverkehr 
anzuwendende allgemeine Kommunikationsmodell. Demnach tauschen 
sich eine Informationsquelle bzw. Sender und eine Informationssenke 
bzw. Empfänger über einen Kanal aus, der durch eine Störquelle beein- 
flusst wird. Sender und Empfänger kodieren bzw. dekodieren dabei die 
Nachricht und der Kanal übertragt das Signal (siehe Abbildung 2.1) [16]. 
Der verwendete Kanal ist in der Kommunikation im Straßenverkehr 
optischer oder akustischer Natur. Der akustische Kanal findet dabei typi- 
scherweise für akute Gefahren oder Warnungen Anwendung, während 
der optische Kanal universeller bzw. neutraler ist und daher in allen 
anderen Situationen gewählt wird [4][17]. 

Diese informelle Kommunikation, welche anders als die formelle Kom- 
munikation nicht durch Regeln beschrieben ist, kann implizit oder ex- 
plizit erfolgen [18][19]. Die implizite Kommunikation ist im Verhalten 
eines Verkehrsteilnehmers enthalten, während die explizite Kommu- 
nikation ausschließlich für das Senden von Nachrichten durchgeführt 
wird [19]. Explizite Kommunikation findet nahezu immer über optische 
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Nachricht . empfangenes Nachricht 
Signal Signal 
Informations F Informations- 
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Abbildung 2.1: Allgemeines Kommunikationsmodell nach Shannon [16] 


Signale statt, da diese hierfür besonders geeignet sind. Optische Signale 
sind, anders als akustische Signale, für unbeteiligte Verkehrsteilnehmer 
kaum wahrnehmbar oder störend und können mittels Blenden und 
optischen Systemen gerichtet ausgesendet werden [4][20]. Akustische Si- 
gnale finden daher v.a. für eine Kommunikation in Gefahrensituationen 
Anwendung, während optische Zeichen universell eingesetzt werden 
können [20]. 


Eine erfolgreiche Kommunikation bzw. Deutung der Zeichen setzt vor- 
aus, dass diese schnell, eindeutig, für jeden gleichermaßen verständlich 
und richtig zu erkennen sind [4][21]. Dies trifft v.a. auf Symbole zu, aber 
auch auf abstrakte Zeichen, welche mit Hilfe einfacher Leuchten oder 
einzeiliger Leuchtenarrays dargestellt werden können. Mit abstrakten 
Zeichen wird in diesem Zusammenhang ein einfaches, lichtbasiertes 
Kommunikationsmittel beschrieben, welches keinen Symbol- oder Text- 
charakter besitzt. Beispiele hierfür sind Brems-, Blink- oder Warnblink- 
funktionen heutiger Fahrzeuge. 


Ein Maß dafür, wie verständlich bzw. einfach ein Zeichen zu erkennen 
ist, ist dessen Intuitivität. Sie gibt an wie intuitiv, also ohne speziellem 
Vorwissen oder Lernaufwand, ein technisches System benutzt werden 
kann. Mohs et al. weisen jedoch darauf hin, dass alle Menschen bei der 
Interaktion und Kommunikation auf Vorwissen zurückgreifen, welches 
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sich sehr früh durch das konzeptuelle Verstehen der physischen Welt 
ausbildet [22]. 


2.1.1 Leitlinien für das Symboldesign 


Neben einer möglichst intuitiven Gestaltung einfacher Zeichen, wie z.B. 
kodierter Leuchten (vgl. Kapitel 3.2.2), beschäftigt sich die Literatur vor 
allem mit dem Design von Symbolen. Um verständliche Symbole zu 
gestalten muss eine eindeutige Verbindung zwischen dem einzelnen 
Bild, dem abstrakten Konzept hinter diesem und der darin enthalte- 
nen Kommunikation gezogen werden können [23]. Verständlichkeit 
und Sinnhaftigkeit sind die beiden wichtigsten Kriterien, die Zeichen 
in der Kommunikation mit anderen Verkehrsteilnehmern erfüllen soll- 
ten [21][23]. Darüber hinaus ist neben einer hohen Erkennungsdistanz 
entscheidend, dass die Zeichen schnell erkannt und gedeutet werden 
können [24]. Diese beiden Kriterien können einander beeinflussen, bspw. 
wenn die Distanz zu groß ist, um das Symbol schnell zu erkennen. 
Die Entfernung, bis zu welcher das Signal noch erkannt werden kann, 
hängt mit der begrenzten Winkelauflösung des menschlichen Auges und 
technischen Randbedingungen zusammen. Diese sind die Auflösung 
und der Kontrast des Displays sowie der Abstand einzelner Segmente 
oder Pixel [25][26]. Um mit bestehenden technischen Gegebenheiten 
eine möglichst schnelle und sichere Erkennung zu gewährleisten, sollen 
die zur Kommunikation verwendeten Zeichen bzw. Symbole möglichst 
schlicht sein. Außerdem sollten sie nach Möglichkeit Objekte aus der 
physischen Welt stilisiert bzw. vereinfacht darstellen [4][27]. 


Zeichen mit geringer Intuitivität können ein Zögern der Kommunikati- 
onspartner hervorrufen, wodurch in einer zeitkritischen Verkehrssituati- 
on das entstandene Risiko größer sein kann als ohne Kommunikation. 
Deshalb ist es notwendig, dass die Zeichen und Symbole sehr intuitiv 
oder zumindest nach nur ein paar wenigen Begegnungen erlernbar sind 
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[28]. Budanow et al. zeigen in [29], dass sehr abstrakte Symbole von Pro- 
banden nicht intuitiv erkannt, sondern unterschiedlichen Bedeutungen 
zugeordnet werden. Dennoch ist nach Lagström und Lundgren zu er- 
warten, dass Symbole genauso erlernt werden können, wie die Zeichen 
von eindimensionalen Leuchtenarrays [30]. Eine Möglichkeit Zeichen 


allgemein verständlich einzuführen ist sie zu standardisieren. 


Einen Überblick über standardisierte Symbole für Anzeigen, Statusleuch- 
ten oder Bedienelementen für Fahrer von Kraftfahrzeugen findet sich 
in der ISO 2575 [27]. Auch hier werden Objekte aus der physischen 
Welt stilisiert dargestellt, um bspw. eine Fahrzeugbatterie, Scheinwer- 
fer oder Gefahrenwarnungen anzuzeigen. In Anlehnung an diese ISO 
Norm werden in der Gesetzgebung für Projektionsscheinwerfer aktuell 
Symbole zur Kommunikation des Fahrzeugs mit dem jeweiligen Fahrer 
standardisiert. Das Ziel ist dabei, intuitive Zeichen für eine schnelle und 
sichere Interaktion zwischen Fahrzeug und Fahrer zu standardisieren. 


2.1.2 Überblick zur aktuellen Gesetzgebung 


Derzeit arbeiten verschiedene Gremien in der Gesetzgebung an der licht- 
technischen Umsetzung der Anzeige eines automatisierten Fahrmodus. 
Dabei hat die Society of Automotive Engineers (SAE) bereits 2019 den 
Standard SAE J3134 veröffentlicht, in dem auf die Notwendigkeit ei- 
ner Anzeige des automatisierten Fahrmodus hingewiesen wird und ein 
Umsetzungsvorschlag präsentiert wird. Dieser Standard sieht eine oder 
zwei blau-grüne Leuchten in der Fahrzeugfront vor, die je nach Um- 
gebungshelligkeit und Verbau der Leuchten eine Lichtstärke zwischen 
10 cd und 750 cd im HV-Messpunkt erfüllen müssen. Eine Kommunika- 
tion mittels Symbolen wird in dem Standard SAE J3134 ausdrücklich 
nicht verboten, aber auch nicht näher beschrieben, da sie nicht in die Ex- 
pertise der Gremienmitglieder fällt. Für zukünftige Standards beschreibt 
die SAE Norm die Möglichkeit, anzuzeigen, dass ein Fahrzeug Vorfahrt 
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gewährt bzw. bereit ist, lozufahren [31]. Auch die International Organi- 
sation for Standardization (ISO) hat mit dem Technical Report ISO 23049 
bereits 2018 einen Standard zur Kommunikation automatisierter Fahr- 
zeuge veröffentlicht. Diese Norm behandelt ergonomische Aspekte der 
Kommunikation und beschreibt bspw., dass die neuartigen Kommunika- 
tionsmethoden erlernt werden müssen und daher möglichst gleichartig 
für alle Fahrzeuge umgesetzt werden sollen. Außerdem weist die Norm 
darauf hin, dass die Zeichen in allen Verkehrssituationen zuverlässig 
erkannt werden müssen. Einen detaillierten Vorschlag für die Kommu- 
nikation automatisierter Fahrzeuge beschreibt der Technical Report ISO 
23049 nicht [32]. Außerdem arbeitet die ISO aktuell an einem noch unver- 
öffentlichten Standard ISO 23735 zur Kommunikation automatisierter 
Fahrzeuge mit anderen Verkehrsteilnehmern, v.a. Fußgängern. Für den 
chinesischen Markt wird aktuell ein GB Standard entwickelt, welcher 
sich neben kleinen Abweichungen größtenteils am SAE J3134 Standard 
orientiert. Auch die Groupe de Travail Bruxelles 1952 (GTB) arbeitet an 
einem Vorschlag für die Gesetzgebung, hat aber zum heutigen Zeitpunkt 
noch keine Ergebnisse veröffentlicht. 


Die aktuelle Gesetzgebung ermöglicht keine Umsetzung einer Fahrzeug- 
Fußgänger-Kommunikation oder Darstellung von Symbolen in bestimm- 
ten Situationen. Die UNECE Regulation 48 weist daraufhin, dass sich die 
photometrischen Eigenschaften einer Leuchte während des fahrbereit- 
Zustands nicht ändern dürfen. Diese beinhalten u.a. Lichtstärke bzw. 
Leuchtdichte, umschriebene und aktive Fläche. Ausnahmen hierfür sind 
bspw. Reaktionen auf die Änderung der Umgebungshelligkeit, als Reak- 
tion auf das Aktivieren einer anderen Leuchte oder wenn eine Leuchte 
eine andere Funktion erfüllen soll. Dynamische oder farbige Darstellun- 
gen von Signaturen oder Symbolen sind hier ausgeschlossen [33]. Als 
blinkende Funktionen zulassungsfähig sind v.a. Fahrtrichtungsanzeiger 
und Warnblinklicht [34] sowie die Funktionsabläufe für das Rear-End 
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Collision Alert Signal (RECAS) und das Emergency Stop Signal (ESS) 
[33]. 

In [35] ist ein Alternative fiir die Darstellung des automatisierten Fahr- 
modus beschrieben. In diesem Vorschlag werden bestehende Leuchten 
temporär bzw. lokal moduliert (ca. 0,5 Hz), um damit anzuzeigen, dass 
sich das Fahrzeug in einem automatisierten Fahrmodus befindet. Diese 
Idee ist von Darstellungen in Spielen, Filmen und Serien übernommen 
und deshalb wahrscheinlich bereits in der Bevölkerung bekannt oder 
schnell zu erlernen. Einzige Abweichung zur aktuellen Fassung der 
UNECE Regulation 48 ist die Modulation, während die Helligkeits- und 
Sichtbarkeitsvorgaben stets erfüllt bleiben. 


2.2 Grundlagen des automatisierten Fahrens 


Aufgrund der aktuellen Aktivitäten in der Gesetzgebung und Stan- 
dardisierung zur Anzeige eines automatisierten Fahrmodus und einer 
Fahrzeug-Fußgänger-Kommunikation automatisierter Fahrzeuge (sie- 
he Anhang 2.1.2) erhält dieses Themengebiet große Aufmerksamkeit 
in der Wissenschaft und Wirtschaft [35]. Vor der Diskussion zur Not- 
wendigkeit einer Fahrzeug-Fußgänger-Kommunikation sollen die in der 
Ethik-Kommission des Bundesministeriums für Verkehr und digitale 
Infrastruktur definierten Stufen des automatisierten Fahrens beschrieben 
werden [9]. Diese sechs Stufen sind den in der SAE J3016 standardisier- 
ten Stufen des automatisierten Fahrens sehr ähnlich [36]. In Stufen 0 
bis 2 überwiegt der menschliche Anteil an der Fahraufgabe, wobei der 
Fahrer das System mindestens dauerhaft überwachen muss [9]. Deshalb 
werden im Folgenden für diese Stufen die Begriffe „manuelles Fahren” 
und „manuelle Fahrzeuge” eingeführt. In den Stufen 3 bis 5 überwiegt 
der automatisierte Anteil, d.h. das Fahrzeug übernimmt Längs- und 
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Querführung ohne, dass der Fahrer das System dauerhaft überwachen 
muss [9]. Deshalb werden diese Stufen automatisierten Fahrzeugen bzw. 
dem automatisieren Fahren zugeordnet. 


100% 
Stufe 0 Stufe 1 Stufe 2 Stufe 3 Stufe 5 
Nur Fahrer Assistiert Teil- Hoch- Voll- Autonom 
automatisiert automatisiert tomatisiert 
Fahrer führt Fahrer führt Fahrer muss das Fahrer muss das Kein Fahrer Von „Start“ bis 
dauerhaft Längs- | dauerhaft Längs- | System dauerhaft System nicht erforderlich im „Ziel“ ist kein 
und Querführung | oder Querführung überwachen mehr dauerhaft spezifischen Fahrer 
aus aus überwachen, aber |/ Anwendungsfall erforderlich Ẹ 
potentiell in der 2 
Lage sein zu 5 
übernehmen (mi 5 
Zeitreserve) 2 
E 
Kein System System System System kann im Das System 5 
eingreifendes übernimmt die | übernimmt Längs- | übernimmt Lä spezifischen übernimmt die = 
Fahrzeugsystem jeweils andere und Querführung | und Querfi Anwendungsfall Fahraufgabe 
aktiv Funktion in einem nem alle Situationen vollumfanglich 
spezifischen ezifischen automatisch (alle Straßen- 
Anwendungsfall Anwendungsfall bewältigen typen, Geschwin- 
digkeitsbereiche 
und Umfeld- 
bedingungen) 


0% 


Abbildung 2.2: Stufen des automatisierten Fahrens, nach [9] 


Lichtsignale bzw. Zeichen automatisierter Fahrzeuge können mittels ein- 
facher Leuchten, in kodierter Darstellung oder mit Hilfe von Symbolen 
dargestellt werden (siehe Kapitel 3.2.2). Unter Zeichen sind allgemein 
alle Kommunikationsmittel zu verstehen, welche im Prozess einer Kom- 
munikation verwendet werden [3]. Symbole oder Piktogramme werden 
dagegen in der ISO Norm 2575 als bildlich wahrnehmbare Zeichen de- 
finiert, die unabhängig von Sprache eine Information vermitteln. Sie 
können bspw. reale Gegenstände oder stilisierte Situationen darstellen 
[27]. 
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2.3 Machine Learning 


Ziel des Machine Learnings (maschinellen Lernens) ist es, aus Daten 
oder Erfahrung zu lernen und Informationen zu gewinnen, um eine 
bestimmte Aufgabe zu lösen [37]. Nach Mitchell gilt: 


A computer program is said to learn from experience E with 
respect to some class of tasks T and performance measure P, 
if its performance at tasks in T, as measured by P, improves 
with experience E. [38] 


Hierfür werden Modelle erstellt, welche mehrere Parameter enthalten. 
Modelle sind entweder prädiktiv, machen also Aussagen über zukünfti- 
ge Ereignisse, erlangen deskriptiv Wissen aus Daten oder besitzen beide 
Ausprägungen [37]. 


Je nach Struktur der Daten spricht man von supervised Learning (über- 
wachtes Lernen) oder unsupervised Learning (unüberwachtes Lernen). 
Supervised Learning verwendet einen Datensatz bestehend aus Bei- 
spielen mit mehreren Features (Merkmalen), wobei jeder Datenvektor 
x einem Label y zugeordnet ist, um daraus ein generalisiertes Modell 
zu erzeugen. Von unsupervised Learning spricht man, wenn der ler- 
nende Algorithmus selbst Strukturen in einem Datensatz finden muss, 
ohne gelabelte Merkmalsvektoren zu kennen. Neben verschiedenen 
Mischformen gibt es noch die Möglichkeit des reinforcement Learnings 
(verstärkendes Lernen), welches sich durch ein Versuch und Irrtum 
Verfahren auszeichnet [39][40]. 


Die zentrale Aufgabe im Machine Learning besteht darin, dass ein Al- 
gorithmus in einer Trainingsphase lernt, wie er in einer Testphase un- 
bekannte Beispiele von Datenvektoren der Anforderung entsprechend 
verarbeitet. Dabei müssen die Modelle aus bestehendem Wissen gene- 
ralisiert werden. Kann der Algorithmus die Struktur des Systems nicht 
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abbilden, so spricht man von Underfitting (Unteranpassung, siehe Abbil- 
dung 2.3, a). Overfitting (Überanpassung) liegt vor, wenn das Modell in 
der Trainingsphase sehr geringe Abweichungen vom Label erzielt, in der 
Testphase jedoch stark vom Systemcharakter abweicht (siehe Abbildung 
2.3, c). Durch Abbilden der Trainingsdaten im Modell des Systems stellt 
dies eine Art Auswendiglernen dar. In Abbildung 2.3, b ist ein Beispiel 
für ein gut generalisiertes Modell dargestellt [39]. 


(a) (b) (c) 


x x x 


Abbildung 2.3: Beispiele für Underfitting (a), gute Generalisierung (b) und Overfitting (c) 
einer quadratischen Funktion, nach [39] 


Over- und Underfitting weisen auf das Problem hin, dass, mit endlicher 
Erfahrung in Form von Daten, kein Modell für alle unbekannten Daten 
gebildet werden kann. Im Machine Learning werden daher Wahrschein- 
lichkeiten für Entscheidungen angegeben, welche stets eine bestimmte 
Unsicherheit aufweisen. Dies wird auch im No Free Lunch Theorem von 
Wolpert und MacReady deutlich [41]. Demnach gibt es keinen universell 
besten Algorithmus für jedes beliebige Problem. Der verwendete Daten- 
satz spielt hier eine entscheidende Rolle, wobei es besonders wichtig 
ist, dass die Trainingsdaten die zu erwartenden Testfälle möglichst gut 
widerspiegeln [39][41]. 
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2.3.1 Genauigkeitsmaße 


Um eine Aussage darüber treffen zu können, wie gut das trainierte 
Modell die Systemeigenschaften umsetzt, sind unterschiedliche Genau- 
igkeitsmaße erforderlich. Soll bspw. eine Klassifikation bewertet wer- 
den, eignen sich u.a. Erkennungsraten oder Richtig-positiv- und Falsch- 
positiv-Raten. Für Regressionen können keine Trefferraten bestimmt 
werden, stattdessen sind kontinuierliche Abstandsmaße notwendig. 


Ein Beispiel für ein kontinuierliches Abstandsmaß zur Bewertung von 
Regressionen ist der mittlere quadratische Fehler (Mean Squared Error 
(MSE)). Dieser berechnet sich nach Kubat [42] als mittlere quadratische 
Abweichung zwischen dem Label y und dem prädizierten Wert y: 


Li oe 
MSE = (vi) (2.1) 
i=1 


m gibt dabei die Lange der Vektoren bzw. die Anzahl der Datenpunkte 
an. 


Die Ergebnisse binärer Klassifikatoren lassen sich mit Hilfe einer Wahr- 
heitsmatrix darstellen (vgl. Abbildung 2.4) und die Anzahl der Klassifi- 
kationsergebnisse in folgende Kategorien einteilen [43]: 


e richtigerweise als positiv klassifiziert (RP) 

e falschlicherweise als positiv klassifiziert (FP) 
e richtigerweise als negativ klassifiziert (RN) 

e falschlicherweise als negativ klassifiziert (FN) 


Für die Gesamtzahl Nç der prädizierten Werte y gilt [42]: 


Nj = RP + FP + RN + FN (2.2) 
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Abbildung 2.4: Wahrheitsmatrix, nach [43] 


Daraus lässt sich die Treffergenauigkeit bzw. Accuracy bestimmen [43]: 


RP+RN 


Nọ 


accuracy = (23) 


Dieses Genauigkeitsmaß ist jedoch nur begrenzt zur Bewertung binä- 
rer Klassifikatoren geeignet, weil es die Größenverhältnisse der vier 
Kategorien nicht berücksichtigt. Dies ist in einem kurzen Beispiel er- 
kennbar. Hat eine Klasse 95 Elemente und eine zweite fünf, so berechnet 
sich die Accuracy bei einer fehlerhaften Zuordnung aller Elemente zur 
ersten Klasse zu 95 % (nach Gleichung 2.3). Das Ergebnis zeigt jedoch 
nicht, dass 100 % der Beispiele aus der zweiten Klasse falsch eingeordnet 
werden [44]. Dieses Problem löst die ROC-Analyse (Receiver Operating 
Characteristic). 


In einer ROC-Analyse lassen sich mit den Größen RP, FP, RN und FN 
weitere Genauigkeitsmaße für binäre Klassifikatoren berechnen, die 
eine genaue Aussage über die Klassifikationsgenauigkeit beider Klassen 
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ermöglichen. Die für diese Arbeit relevantesten sind die Richtig-positiv 
Rate (RPR) und Falsch-positiv Rate (FPR) nach Fawcett [43]: 


RP RP 


RPR= SpLEN P (2.4) 
FP FP 
SER FP+RN N > 


P ist dabei die Gesamtzahl aller positiven und N die aller negativen 
Klassifikationsergebnisse. 


Die Summe aus RPR und FPR muss nicht 100 % ergeben, was auch in 
einem Beispiel für eine ROC-Kurve nach Fawcett deutlich wird (siehe 
Abbildung 2.5). Die RPRs und FPRs beschreiben alle für den Klassifika- 
tor erreichbaren Arbeitspunkte. Für gewöhnlich ist die ROC-Kurve aus 
diskreten Punkten aufgebaut, doch lassen sich für eine beliebige FPR 
optimistische, pessimistische oder realistische Schätzungen der RPR in 
einer ROC-Kurve ablesen (siehe Abbildung 2.5). Für alle Klassifikatoren 
sind die Werte 0/0 und 1/1 der RPR/FPR in der ROC-Kurve enthal- 
ten [43]. Verschiedene Klassifikatoren mit jeweils eigener ROC-Kurve, 
können für gleiche RPRs unterschiedliche FPRs aufweisen. Demnach 
können bei konstanter RPR die FPRs einer Schar von Klassifikatoren 
nicht beliebig klein werden, da diese durch die ROC-Kurven festgelegt 
sind. 


2.3.2 Kreuzvalidierung 


Mittels eines Testdatensatzes kann für jeden Machine Learning Algo- 
rithmus ein Testfehler Eyes; geschätzt werden [45]. Ein fester, kleiner 
Testdatensatz führt zu einer statistischen Ungenauigkeit bei der Bestim- 
mung des durchschnittlichen Testfehlers, weshalb ein Vergleich zwei- 
er Algorithmen nicht zuverlässig getroffen werden kann. Um diesem 
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Abbildung 2.5: Beispielbild für eine ROC-Kurve, nach [43] 


Problem entgegenzuwirken, kann eine Kreuzvalidierung bzw. Cross- 
Validation (CV) eingesetzt werden [39]. 


Bei einer CV wird mit einem Teil des Datensatzes ein Modell trainiert 
und mit den übrigen Datenpunkten dessen Genauigkeit evaluiert. Dies 
wird mehrmals wiederholt und die Ergebnisse zusammengefasst [46]. 
Häufig wird eine k-fache CV implementiert, welche den Datensatz in 
k Teile unterteilt. In jedem i-ten Durchlauf werden k — 1 Teile für das 
Trainieren des Modells verwendet, während der i-te Anteil zum Testen 
und zur Bestimmung von Erest;, herangezogen wird (vgl. Abbildung 2.6) 
[45][46]: 


1 k 
Etest = k L Etest; (2.6) 
i=1 
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Nach James et al. [45] steigt mit großen k (k > 10) der Bias der Ergebnisse, 
wohingegen die Varianz sinkt. Deshalb wird empfohlen Werte vonk =5 
oder k = 10 zu verwenden, da diese nach empirischen Versuchen einen 
Kompromiss für die Schätzung des Testfehlers zwischen Varianz und 
Bias darstellen [45]. Auch das wiederholte Anwenden einer k-fachen CV 
kann zur Verringerung der Varianz bei gleichbleibend geringem Bias 
führen [46]. 


Testdaten Trainingsdaten 

m~~ 1 1 
Iteration 1 || A m) E 
Iteration 2 a p — Eo st, 
Iteration 3 u = m) Frost, | Frost 
Iteration k sie | | = Erest;, 

L J 

Y 
Datensatz 


Abbildung 2.6: k-fache Cross-Validation, nach [47] 


Zur k-fachen CV gibt es verschiedene Alternativen in der Aufteilung des 
Datensatzes in homogene Teile, z.B. die Leave-One-Out Cross-Validation 
oder die Stratified Cross-Validation nach Kohavi [46]. Die stratifizierte 
CV unterteilt den Datensatz gleichmäßig, während die Proportionen der 
Klassen des gesamten Datensatzes in jedem einzelnen Teil wiederzufin- 
den sind [48]. 
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2.4 Feedforward Neural Networks 


Künstliche neuronale Netze bzw. Artificial Neural Networks (ANNs) 
sind Machine Learning Modelle, welche nach dem Vorbild des mensch- 
lichen Gehirns entworfen wurden [39][49][50] und heute fiir diverse 
Anwendungen zum Einsatz kommen. So finden ANNs z.B. in der Bild- 
analyse, Gesichtserkennung, Spracherkennung und -synthese oder fiir 
Kaufentscheidungen an der Borse Anwendung [50]. Besonders wegen 
ihrer Eigenschaft, nichtlineare Funktionen ohne a priori Wissen schatzen 
zu können, werden diese Netzwerke auch häufig für Zeitreihenanalysen 
eingesetzt [51]. Alle ANNs akquirieren und speichern die aus Daten 
gewonnen Informationen in künstlichen Neuronen [50]. Eine der ein- 
fachsten Architekturen und Sonderform der ANNs sind Feedforward 
Neural Networks (FNNs), welche Informationen in Form von Eingangs- 
vektoren geradlinig durch verschiedene Schichten weitergeben [39]. Weil 
keine Rückkopplung der Ergebnisse zum Eingang erfolgt, werden diese 
auch azyklische Netzwerke genannt [52]. 


Die Geschichte der ANNs reicht bis in die 1940er Jahre zurück, als erste 
Netzwerke und deren Potential, aus Daten zu lernen, vorgestellt wurden. 
Die zum Lernen der richtigen Gewichte notwendige Backpropagation 
konnte erst in den 1970er Jahren durch neue Algorithmen effizient umge- 
setzt werden. Damit, sowie durch die steigende Leistungsfähigkeit der 
Recheneinheiten, erleben ANNs seit den 1990er Jahren einen immensen 
Aufschwung und beherrschen seit einigen Jahren alle Machine Learning 
Wettbewerbe unterschiedlichster Disziplinen [52]. 


Wie beschrieben sind v.a. für die Modellierung tiefer neuronaler Net- 
ze zeitintensive Berechnungen notwendig, wobei sich Trainings- und 
Klassifikationszeit um mehrere Größenordnungen voneinander unter- 
scheiden können. Das Training ist um eine Vielzahl rechenintensiver 
als das einmalige Verarbeiten eines Eingangsdatenvektors, weshalb u.a. 
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Krizhevsky et al. für das Training von ANNs den Einsatz von parallel 
arbeitenden Grafikkarten empfehlen [53]. 


Jedes neuronale Netzwerk besteht aus einer Vielzahl künstlicher Neuro- 
nen (siehe Abbildung 2.7), welche mittels eines Eingangsvektors x, eines 
Gewichtsvektors W, eines Bias 0 und einer Aktivierungsfunktion g(.) 
(siehe Kapitel 2.4.1) den Ausgabewert y bestimmen [39], wobei 


Wy 


w2 
w=]. (2.7) 


Wn 


ae i (2.8) 


gilt. Die Aktivierung z wird über die Summe der mit W gewichteten 
Eingänge und dem Bias 6 berechnet [39]. 


z=W’x+9 (2.9) 
Damit ergibt sich der Ausgangswert y zu [39][50] 


F= f(x) = g(z) (2.10) 


Das künstliche Neuron speichert die aus den Daten gewonnen Informa- 
tionen im Gewichtsvektor W und dem Bias 0, wobei durch Kombination 
mehrerer Neuronen komplexere Informationen verarbeitet bzw. vernetz- 
tere Modelle gebildet werden können [50]. 


Die Kombination der künstlichen Neuronen erfolgt in Schichten, welche 
ebenfalls durch Gewichte W miteinander verbunden sind (einfache Pfei- 
le in Abbildung 2.8). Wird jedes künstliche Neuron einer Schicht mit allen 
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x == wi 


x, Ww, ge) ee) = g(2) 


Xn N Wn 


Abbildung 2.7: Künstliches Neuron, nach [39][50] 


Neuronen oder Eingängen der vorherigen Schicht durch ein Gewicht 
verknüpft, so spricht man von einem fully connected (FC) Layer [40]. Bei 
FNNs sind diese Schichten ohne Rückkopplung aufgebaut. Jedes ANN 
besitzt eine Eingangsschicht (Input Layer) und eine Ausgangsschicht 
(Output Layer). Zwischen diesen sind typischerweise eine oder mehrere 
verdeckte Schichten (Hidden Layer) implementiert. Besitzt ein ANN 
mehrere verdeckte Schichten, so wird dieses als tief bezeichnet und 
demnach Deep Neural Network (DNN) genannt [39]. DNNs übertreffen 
konventionelle Algorithmen in unterschiedlichen Anwendungsfeldern, 
wie etwa Übersetzung, Spracherkennung oder Bilderkennung, bei wei- 
tem [49] und können durch Verkettung der Funktionen jeder Schicht 
(siehe Gleichung 2.11) gegenüber flachen Netzen Neuronen sparen [54]. 
Die Tiefe des in Abbildung 2.8 dargestellten Netzwerks beträgt drei, 
weshalb gilt [39]: 


Fx) = FO (FO FM (x) (2.11) 
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Eingangs- 1. verdeckte 2. verdeckte Ausgangs- 
schicht Schicht Schicht schicht 


Abbildung 2.8: Beispiel für ein kleines neuronales Netzwerk mit drei fully connected 
Layern und m Ausgängen, nach [50] 


2.4.1 Aktivierungsfunktion 


Aktivierungsfunktionen g(.) sind beliebige Funktionen künstlicher Neu- 
ronen, wobei insbesondere nichtlineare Funktionen eingesetzt werden, 
um Nichtlinearitäten in ANNs abbilden zu können. Häufig verwendete 
Aktivierungsfunktionen, sogenannte Hidden Units, sind die binäre Trep- 
penfunktion, logistische Sigmoidfunktion, Tangens hyperbolicus (tanh) 
und Rectified Linear Unit (ReLU) (siehe Abbildung 2.9) [39][50]. Dar- 
über hinaus besteht auch die Möglichkeit, keine Aktivierungsfunktion 
einzusetzen [39]. 


Beschränkte Aktivierungsfunktionen wie die binäre Treppenfunktion, 
logistische Sigmoidfunktion oder tanh führen bei Recurrent Neural 
Networks (RNNs) zu verschwindenden Gradienten, wohingegen unbe- 
schränkte Funktionen, wie z.B. die Rectified Linear Unit, zu explodie- 
renden Gradienten führen können (siehe Kapitel 2.5) [55]. 
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Abbildung 2.9: Beispiele für Aktivierungsfunktionen g(z), nach [50][56] 


Binäre Treppenfunktion 


Die binäre Treppenfunktion ist eine der einfachsten Aktivierungsfunktio- 
nen und gibt für positive Eingänge einen Wert von 1 zurück, für negative 
0. Die Treppenfunktion wird deshalb auch als Schwellwertfunktion be- 
zeichnet und kann folgendermaßen beschrieben werden [50]: 


0 wennz <0 
g(z) = (2.12) 
1 wennz>0 


Weil die Ableitung dieser Aktivierungsfunktion im Punkt z = 0 wegen 
der Unstetigkeit nicht existiert und die Treppenfunktion nur zwei Werte 
annehmen kann, werden v.a. fiir tiefe Netze und stetige Neuronen andere 
Aktivierungsfunktionen eingesetzt [50][57]. 
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Logistische Sigmoidfunktion 


Zu den stetig differenzierbaren Aktivierungsfunktionen zählt die logisti- 
sche Sigmoidfunktion, welche eine geglättete Treppenfunktion ist [57]. 
Die logistische Sigmoid Aktivierungsfunktion kann folgendermaßen 
beschrieben werden [39][50]: 


1 


=. (2.13) 


se) = e(z) 


Wie in Abbildung 2.9 dargestellt ist, zeigt die logistische Sigmoidfunk- 
tion um z = 0 ihre größte Empfindlichkeit und nähert sich für z > 3 
und z < -3 den Grenzwerten 1 und 0 an, was v.a. bei FNNs das Lernen 
erschwert. Für RNNs, probabilistische Modelle oder Autoencoder wer- 
den trotzdem logistische Sigmoidfunktionen eingesetzt, da sie hierfür 
zusätzliche Anforderungen erfüllen, z.B. eine bijektive Abbildung von z 
auf ¢(z) [39]. 


Tangens hyperbolicus 
Soll bei FNNs trotz der oben genannten Einschränkung eine sigmoidför- 


mige Funktion eingesetzt werden, wird von Goodfellow et al. besonders 
ein Tangens hyperbolicus als Aktivierungsfunktion empfohlen [39]: 


g(z) = tanh(z) = 20(2z) — 1 (2.14) 


Die Form des Tangens hyperbolicus ähnelt für betragsmäßig kleine 
Aktivierungen z der identischen Abbildung, was das Training von ANNs 
vereinfacht [39]. 
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Rectified Linear Unit 


Die ReLU ist der Aktivierungsfunktion des biologischen Neurons sehr 
ähnlich und durch ihre Übereinstimmung mit der identischen Abbil- 
dung für z > 0 sehr effizient beim Trainieren von ANNs [56]: 


0 <0 
g(z) = max(0,z) = von (2.15) 
z wennz>0 


Durch die linearen Funktionsteile (außer bei z = 0) und dem großen 
Anteil von 0-Werten (für z < 0) sind die Berechnungen tiefer Netzwerke 
bei zufälliger Initialisierung besonders effizient. Bei positiven Aktivie- 
rungen z kann die unbeschränkte, identische Abbildung zu ungewollt 
großen Ergebnissen führen und damit den Trainings- und Klassifika- 
tionsvorgang negativ beeinflussen. Dies kann nach Glorot et al. durch 
eine Regularisierung verhindert werden [56]. 


2.4.2 Training neuronaler Netze 


Beim Training neuronaler Netze steht die Optimierung einer Kosten- 
funktion E(0, W) für ein bestehendes Problem im Mittelpunkt [40][58]. 
Die zentrale Aufgabe beim Trainieren des Netzwerks ist es, die Para- 
meter 0 und W so anzupassen, sodass die Kostenfunktion E(0, W) für 
einen bestehenden Datensatz minimal wird [59]. Dies geschieht durch 
mehrmaliges Anwenden eines Optimizers auf die zur Verfügung stehen- 
den Daten. Eine Trainingsiteration über den gesamten Datensatz wird 
dabei Epoche genannt [39]. 


Die Bias 0 und Gewichte W, mit w = (W; 07) [58], werden in heutigen 
DNNs vor allem mit gradientenbasierten Optimizern trainiert [39]. Ein 
weit verbreiteter Optimizer ist der Gradient Descent Algorithmus, wel- 
cher über eine berechnete Schätzung des Gradienten und eine Lernrate € 


26 


FEEDFORWARD NEURAL NETWORKS 


die Gewichte eines ANN trainieren kann. Fortgeschrittenere Algorith- 
men wie der Adam Optimizer verwenden zusätzlich adaptiv geschätzte 
Momente niedriger Ordnung [60]. Die Lernrate e ist im einfachsten Fall 
eine kleine, konstante Zahl, kann jedoch auch über verschiedene Metho- 
den über die Anzahl der Epochen angepasst werden (z.B. bei RMSProp 
oder dem Adam Optimizer) [39][59]. Wird die Lernrate zu groß gewählt, 
kann der Algorithmus das lokale Minimum nicht erreichen bzw. über- 
springt beim weiteren Optimieren dieses wieder. Zu kleine Schrittweiten 
der Lernrate führen zu sehr langen Trainingszeiten [59]. 

Die Initialisierung der Parameter w wird in modernen Algorithmen nach 
wie vor sehr einfach umgesetzt. Es ist entscheidend, dass die Parameter 
mit unterschiedlichen Werten initialisiert werden, damit die einzelnen 
Neuronen nicht im gleichen Umfang angepasst bzw. trainiert werden. 
Dies kann beispielsweise über zufällige Initialisierung geschehen, wobei 
die Zufallsverteilung nahezu keinen Einfluss hat. Nach Goodfellow et 
al. fehlen jedoch genaue Erkenntnisse, wie sich die Initialisierung auf 
das Training des ANNs auswirkt [39]. 

Beim Training eines neuronalen Netzes sinkt die Kostenfunktion für 
die Trainingsdaten typischerweise über alle Epochen, was zu einem 
Overfitting führen kann. Um diesem Problem entgegenzuwirken, kann 
ein Validierungsdatensatz verwendet werden, für welchen zyklisch die 
Kostenfunktion berechnet wird. Der Validierungsdatensatz wird nicht 
für das Training selbst verwendet, sondern lediglich um den Trainings- 
fortschritt zu überprüfen. Wie in Abbildung 2.10 zu sehen ist, steigt 
dessen Kostenfunktion nach einigen Epochen typischerweise wieder 
an, was auf ein Overfitting hindeutet. Weil im Bereich vor diesem Wen- 
depunkt ein zu wenig angepasstes Modell vorliegt (Underfitting) ist 
es erstrebenswert, die Parameter aus dem Wendepunkt zu speichern. 
Dieses Speichern des Modells im Wendepunkt der Lernkurve und der 
Abbruch des Trainings wird Early Stopping (frühes Anhalten) genannt. 
Die Verwendung eines Validierungsdatensatzes für das Early Stopping 
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entspricht der Wirkungsweise einer L?-Regularisierung [39]. Der Haupt- 
nutzen der Regularisierung ist das Vermeiden des Overfittings, wofür 
auch andere Regularisierungsmethoden eingesetzt werden können [59]. 


—-Trainingsdaten 
—-Validierungsdaten 


1 
Underfitting Zone \ Overfitting Zone 
1 


Kostenfunktion 


d 


Epochen 


Abbildung 2.10: Lernkurven für Trainings- und Validierungsdaten, nach [39] 


Die genaue Bestimmung der Gradienten über alle Daten ist sehr rechen- 
intensiv, weshalb eine effizientere Berechnungen der Gradienten die 
Trainingsdauer stark verkürzen kann. Dafür werden die Daten in zufäl- 
lig ausgewählte Teilmengen, sogenannte Minibatches, unterteilt und mit 
diesen über mehrere Iterationen der Gradient geschätzt [39][59]. Ist die 
Batch-Size, also wie viele Datenpunkte gleichzeitig betrachtet werden, 
zu gering oder sogar 1, so wird die verwendete Hardware nicht effizient 
genutzt und es kann zu einer Überanpassung an einzelne Datenpunkte 
kommen [59]. Deshalb wird die Batch-Size für ANNs zwischen 1 und der 
Größe des Datensatzes gewählt [39], wobei nach Radiuk größere Batch- 
Sizes zu höheren Prädiktionsgenauigkeiten führen [61]. Hier muss ein 
Kompromiss zwischen Berechnungseffizienz bzw. Hardwareauslastung 
und Prädiktionsgenauigkeit gefunden werden. Unbedingt notwendig 


28 


FEEDFORWARD NEURAL NETWORKS 


ist, dass die Minibatches zufällig ausgewählt werden [39], wodurch die 
verwendete Kostenfunktion jedoch zur stochastischen Funktion werden 
könnte [60]. 


Kostenfunktionen 


Eine Kostenfunktion E(w) (error function, cost function) ist ein Maß für 
die Abweichung zwischen den vom ANN prädizierten Ausgangswerten 
y und den eigentlichen Labelwerten y. Diese kann auf unterschiedliche 
Arten bestimmt werden, wobei quadratische Kostenfunktionen (quadra- 
tic loss) 


E(w) = (y- 9° (2.16) 
oder absolute Kostenfunktionen (absolute loss) 


E(w) = |y—yl (2.17) 


wegen ihrer Einfachheit und Effektivitat eingesetzt werden [58]. Des 
Weiteren wird die Kostenfunktion LogLoss insbesondere fiir Klassifikati- 
onsprobleme verwendet und ist durch folgende Gleichung beschrieben 
[62][63]: 


E(w) = =y-log(y+eps) — (1 — y)  log(1 — F + eps) (2.18) 
Hier gibt eps die jeweilige Maschinengenauigkeit an. 
Optimizer 
Gradientenbasierte Optimizer werden in verschiedenen Machine Lear- 
ning Anwendungen eingesetzt, um eine Kostenfunktion E(w) unter 


Berücksichtigung der Parameter w zu minimieren. Mit Hilfe gradienten- 
basierter Optimizer werden die Gradienten der Kostenfunktion VE(w) 
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auf Basis weniger Datenpunkte des Datensatzes geschätzt, z.B. bei Ver- 
wendung von Minibatches [39][60]. 


Einer der am einfachsten nachzuvollziehenden Optimizer ist der Gradi- 
ent Descent Algorithmus, bei dem der Gradient 


VE(w) = | °”? (2.19) 


und die Lernrate £ zur Aktualisierung der neuen Gewichte und Bias w’ 
verwendet werden. Hierbei gilt [39][40]: 


w =w-eVE(w) (2.20) 


Der Gradient Descent Algorithmus ist vor allem für differenzierbare 
Kostenfunktionen ein effizienter Optimizer, weil die Berechnung der 
partiellen ersten Ableitungen genauso rechenaufwändig ist, wie die Eva- 
luierung der Funktion selbst. Für stochastische Kostenfunktionen, z.B. 
durch Unterteilen des Datensatzes in Minibatches, ist dieser Algorith- 
mus jedoch nur eingeschränkt zu verwenden [60]. 


Für die Anwendung bei stochastischen Kostenfunktionen gibt es eine 
Reihe von Optimizern, z.B. stochastische Gradient Descent, AdaGrad 
oder RMSProp, wobei sich vor allem der Adam Optimizer durchgesetzt 
hat [39][60]. Der Name Adam leitet sich von adaptive moment estimation 
(adaptive Momentschätzung) ab. Diese Methode berechnet neben der 
ersten partiellen Ableitung VE(w) auch das erste und zweite Moment 
des Gradienten mı und mz, um eine adaptive Lernrate zu bestimmen 
und damit die Gewichte und Bias w zu trainieren [60]: 
m 


w =w- (2.21) 
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Dabei stellt « die Schrittweite dar und mit fi,’ bzw. My’ werden die um 
den Bias korrigierten ersten und zweiten Momente angeben: 


/ 

~ | mı 

my = (2.22) 
1- Bi 
my! 

~ 

Mm = — — (2.23) 
1-5 


Hierbei sind 6; und ß> die exponentiellen Abklingraten des ersten und 
zweiten Moments. Die Zeitschritte t werden bei jeder Iteration inkre- 
mentiert. Die aktualisierten ersten und zweiten Momentschätzungen 
my’ und my’ werden aus den Vorgängerschätzung mı und mz berechnet 
[60]: 

my’ = bı: mı + (1- Bı)VE(w) (2.24) 


m?' = p2 -m2 + (1 — B2)(VE(w) © VE(w)) (2.25) 


Dabei beschreibt VE(w) © VE(w) das elementweise Produkt aus 
VE(w) [60]. Obwohl der Adam Optimizer sehr robust gegenüber der 
Initialisierung der verwendeten Parameter ist und nur in manchen 
Fällen eine Anpassung der Lernrate erforderlich ist [39], empfehlen 
Kingma und Ba die Initialisierung von « = 0,001, Bı = 0,9, B2 = 0,999 
und e = 10-8 [60]. 


Backpropagation 


Im Algorithmus zur Backpropagation wird die Kettenregel der Diffe- 

rentialrechnung in einer speziellen Reihenfolge angewendet, damit die 

Berechnung möglichst effizient durchgeführt werden kann [39]: 
dz _ dz dy 


cee an 2 
dx dydx 2:26) 
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In diesem Beispiel sind f und g skalare Funktionen für die y = g(x) und 
z = f(g(x)) = f (y) gilt. 

Der Backpropagation Algorithmus kann den Gradienten einer Kosten- 
funktion mit Hilfe rückwärts durch das Netzwerk fließender Informa- 
tionen berechnen. Dieser wird wiederum für gradientenbasierte Opti- 
mizer zum Training von ANNs eingesetzt [39]. Die Backpropagation 
führte durch effizientes Berechnen der Gradienten ab 1981 zu erhebli- 
chen Fortschritten in der Entwicklung von neuronalen Netzen [52]. Eine 
numerische Berechnung des Gradienten ist im Gegensatz zur analyti- 
schen Berechnung sehr rechenintensiv, weshalb der Backpropagation 
Algorithmus in nahezu allen modernen ANNs eingesetzt wird [39]. 


2.4.3 Feature Normalisierung 


Für die Berechnung neuronaler Netze unter der Anwendung einer Kos- 
tenfunktion ist es notwendig, die verwendeten Daten zu normalisieren. 
Die Kostenfunktion bezieht nach ihrer Definition die absoluten Abwei- 
chungen aller Prädiktionen vom Label ein, wodurch manche Merkmale 
einen größeren Einfluss auf das Fehlermaß haben als andere. Die Feature 
Normalisierung hilft dabei, dass sich alle Daten in der gleichen Grö- 
ßenordnung befinden und damit nur relative Änderungen der Features 
betrachtet werden [64][65]. Die Normalisierung beschränkt die Daten- 
punkte der Merkmalsvektoren auf einen definierten Bereich, z.B. [0; 1] 
oder [-1;1]. Dadurch wird ein effizienteres Berechnen und damit ein 
schnelleres Training der ANNs möglich [50][65]. 

Eine simple Methode zur Feature Normalisierung ist die Min-Max Nor- 
malisierung, bei der jeder i-te Datenpunkt x;; eines Features j mit Hilfe 
des jeweiligen Minimums min; und Maximums max; auf einen Bereich 
[0; 1] beschränkt wird [64]: 

xij — min; 


Pe ee 2.27 
Xij max; — min; ( ) 
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Eine weitere Möglichkeit der Feature Normalisierung ist die Anwen- 
dung einer tanh Funktion für das Beschränken der Daten auf den Bereich 
[-1;1], wobei auch Abwandlungen von dieser verwendet werden können. 
Eine dieser ist die modifizierte Tanh Normalisierung nach Thangasamy 
und Latha [66]: 


0, Oli xe — 74) 
le u 1] J fi 

i= 0,5 (tanh ( - ) ' 1) (2.28) 
Der Mittelwert u; und die Standardabweichung 0; werden dabei direkt 
aus den zugrundeliegenden Daten berechnet. Die Daten werden wie bei 
der Min-Max Normalisierung auf einen Bereich von [0;1] beschränkt 


[66]. 


2.4.4 Grenzen für Feedforward Netze 


ANNs haben sich für verschiedenste Anwendungen bewährt und sind 
ein wichtiges Hilfsmittel, um komplexe Zusammenhänge zu modellie- 
ren [39][52]. Jedoch verarbeiten die oben beschriebenen Feedforward 
Netze jeweils nur einen Inputvektor x, also einen Zeitschritt, ohne vor- 
hergehende Ergebnisse miteinzubeziehen [39]. Zwar lassen sich zeitliche 
Zusammenhänge beschreiben [39][67], doch können Modelle für Se- 
quenzen variabler Länge kaum gebildet werden. Tritt eine bestimmte 
Information an unterschiedlichen Positionen der Sequenz auf, so muss 
das Netzwerk für alle möglichen Konfigurationen trainiert werden [39]. 


2.5 Reccurent Neural Networks 


Recurrent Neural Networks sind ANNs mit zyklischen Netzwerktypo- 
logien, womit sie Informationen aus sequentiellen Zusammenhängen 
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herausfiltern und speichern können [52][68]. Wie in Abbildung 2.11 dar- 
gestellt, wird hierfür die Ausgabe bestimmter Neuronen als Eingang für 
diese und andere Neuronen zurückgeführt [50]. Durch die Rückführung 
und der damit verbundenen Fähigkeit sequentielle Daten zu verarbeiten, 
übertreffen RNNs hierbei klassische FNNs, wie z.B. bei der Analyse von 
Zeitreihen, bei der Prozesssteuerung oder bei der Systemidentifikation 
und -optimierung [50][68]. 


u vn 
` \ 
x —— x S —— ¢ 
entfaltet 


Abbildung 2.11: Hidden State eines Recurrent Neural Networks in kompakter und zeitlich 
entfalteter Darstellung, nach [39] 


Mit Hilfe der rekurrenten Vernetzung der Neuronen können RNNs 
Parameter über mehrere Zeitschritte hinweg teilen, wodurch sehr tiefe 
Modelle entstehen. Damit lassen sich im Gegensatz zu FNNs lange 
Sequenzen von Eingangsvariablen verarbeiten. Das Teilen der Parameter 
ist entscheidend, wenn Informationen an verschieden Positionen der 
Sequenz auftreten können. FNNs müssen in diesem Fall für jede Position 
der Information neue Features erlernen [39]. Obwohl RNNs in der Praxis 
häufig mit Minibatches trainiert werden [39], können sie theoretisch 
Sequenzen variabler Größe analysieren [39][68]. 


Zum Training eines RNNs wird ein Hidden State (versteckter Zustand) 
h) als eine Art Zusammenfassung der bis t vergangenen Zeitschrit- 
te berechnet. Der Hidden State ist generell verlustbehaftet, da er eine 
Eingangssequenz beliebiger Lange (x®, x-1), xt), Lay x (2), x) auf 
einen Vektor h fester Länge abbildet. Während des Trainingsprozesses 
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werden bestimmte Eingangsgrößen stärker berücksichtigt als andere 
[39]: 


hn) = f(hED, x4) w) (2.29) 


Das Training von RNNs wird nach zeitlichem Entfalten des Modells 
wie bei FNNs durchgeführt, wofür mit Hilfe eines Backpropagation 
Algorithmus Gradienten berechnet werden (vgl. Kapitel 2.4). Durch die 
zeitliche Entfaltung des Graphen wird dies als Backpropagation through 
time (Backpropagation über die Zeit) bezeichnet. Die Gradienten werden 
anschließend, wie auch für FNNs, in gradientenbasierten Optimizern 
eingesetzt, womit wiederum das Netzwerk trainiert werden kann. Durch 
das serielle Verketten von RNNs oder dem Abzweigen von rekurrenten 
Pfaden werden tiefe RNNs aufgebaut [39]. 


ANNs mit beschränkten Aktivierungsfunktionen, insbesondere aber 
auch RNNs leiden unter dem Problem der vanishing oder exploding 
gradients, also verschwindenden oder explodierenden Gradienten [55]. 
Die Ursache für die vanishing und exploding gradients liegt dabei in 
der Aktualisierung der Gewichte im Optimizer bzw. in der Berechnung 
der Gewichte selbst. Diese gehen entweder zu gering (bei verschwinden- 
den Gradienten) oder zu stark (bei explodierenden Gradienten) in den 
Gradienten der Fehlerfunktion ein [69]. Dies erschwert einerseits das 
Optimieren der RNNs erheblich [55] und führt andererseits dazu, dass 
sie kaum Langzeitabhängigkeiten abbilden können, sondern lediglich 
für kurzzeitige Zusammenhänge geeignet sind [68]. Bei sehr tiefen FNNs 
und auch bei RNNs gehen die Gradienten einer beliebigen Schicht durch 
Anwendung der Kettenregel als Produkt in die Berechnung der Gradi- 
enten darüberliegender Schichten bzw. vorausgehender Zeitschritte ein. 
Dadurch können die Gradienten verschwinden bzw. explodieren, vor 
allem unter Einsatz konstanter Gewichte, wie sie bei RNNs durch die 
zeitliche Entfaltung anzutreffen sind [64]. 
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Vanishing gradients sind für RNNs nur sehr schwer zu vermeiden und 
treten wesentlich häufiger als exploding gradients auf [39][69]. Eine 
Möglichkeit vanishing gradients zu vermeiden ist das Initialisieren der 
Gewichte mit kleinen Werten um 0, wobei sich dadurch sehr lange 
Trainingsdauern einstellen [69]. Alternativ werden in aktuellen Anwen- 
dungen deshalb gated bzw. verschlossene RNNS eingesetzt [39]. 


2.6 Long Short-Term Memory 


Long Short-Term Memory (LSTM) Zellen (langes Kurzzeitgedächtnis) 
sind gated RNNs, die mit Hilfe eines direkten Pfads durch das Netz- 
werk robust gegen verschwindende und explodierende Gradienten sind 
und damit zeitliche Zusammenhänge modellieren können [39][70]. Die 
Kombination aus dem direkten Pfad und den verwendeten Gates lies die 
LSTM zu einer der erfolgreichsten rekurrenten Netzwerkarchitektur für 
sequentielle Zusammenhänge werden [39][55]. Hochreiter und Schmid- 
huber [71] entwickelten den ursprünglichen Aufbau einer LSTM Zelle, 
welcher seitdem mehrfach ergänzt oder abgewandelt wurde [39][72]. 


2.6.1 Aufbau einer Long Short-Term Memory Zelle 


Jede LSTM Zelle besteht neben einem internen Zustand (internal State) 
oder Zellenzustand (Cell State) [39], welcher den verdeckten Zustand 
einer RNN Zelle ersetzt, aus drei Gates (siehe Abbildung 2.12) [70][71]. 
Der interne Zustand s” der Zelle i ist die wichtigste Komponente einer 
LSTM Zelle, da er einen direkten Pfad für die Backpropagation darstellt 
und die relevanten Informationen einer Sequenz beinhaltet [39]. 

p 
funktion welche Informationen aus dem Zellenzustand vergessen oder 


Das Forget Gate (Vergessenstor) f; ’ bestimmt mit Hilfe einer Sigmoid- 
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Abbildung 2.12: Aufbau einer Long Short-Term Memory Zelle, nach [39][73] 


beibehalten werden sollen [70][71]. Das Forget Gate wird folgenderma- 
ßen berechnet [39]: 


Role IEU (9 HEWA "y (2.30) 


Dabei sind uf bzw. wi und of jeweils die Gewichte und Bias des Forget 


Gates, p der Eingangsdatenvektor für den Zeitpunkt t und T der 
Output Vektor für den vorhergehenden Zeitpunkt t — 1. 
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Das Input Gate (Eingangstor) g 9 bestimmt welche Informationen aus 


dem aktuellen Eingangsdatenvektor xt ) und Output Vektor g in 
den internen Zustand fließen sollen [39]: 

gl) ee 2a 4 HEWA 2) (2.31) 
Mit dem aktuellen Eingang 

gg ae a x EW nA (2.32) 


wird der Zellenzustand wie folgt berechnet [39]: 


t) = fig) 4 gids (2.33) 


Mit Hilfe des Output Gates (Ausgangstor) q” wird im LSTM eingestellt, 
wie viele Informationen aus dem internen Zustand an den Ausgang y” 
weitergegeben werden [39]: 


Me) es 
j 


y” = tanh(s” qg) (2.35) 


2.6.2 Vergleich mit Recurrent Neural Networks 


Im Gegensatz zu RNNs sind LSTMs kaum von verschwindenden oder 
explodierenden Gradienten betroffen und können deshalb besonders 
lange Sequenzen zuverlässig verarbeiten [70]. Außerdem können sie da- 
durch schneller sequentielle Zusammenhänge erlernen [39][71], weshalb 
sie in den meisten Anwendungen RNNs vorgezogen werden. Vor allem 
durch den direkten Pfad des Zellenzustandes können die LSTMs sehr 
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lange Zeitreihen verarbeiten und Informationen zuverlässig speichern. 
Hochreiter und Schmidhuber beschreiben das erfolgreiche Analysieren 
von Sequenzen bis zu einer Länge von 1000 Schritten. Im Vergleich mit 
einer einfachen rekurrenten Zelle besitzt eine LSTM Zelle zusätzliche 
Gates, wodurch viermal so viele Parameter pro Epoche berechnet und 
aktualisiert werden müssen [71]. 


2.7 Decision Trees 


Decision Trees (Entscheidungsbäume) sind, im Gegensatz zu RNNs, 
klassische Algorithmen des maschinellen Lernens und werden vor allem 
wegen ihres einfachen Aufbaus eingesetzt. Sie bestehen aus einer Viel- 
zahl von in Schichten angeordneter Entscheidungen oder Bedingungen 
und sind weit verbreitete Algorithmen für Klassifikationsaufgaben, also 
Entscheidungen mit diskreten Ausgangswerten. Der zugrundeliegende 
Algorithmus sucht zu jedem Verzweigungspunkt nach einem Schwell- 
wert, welcher die Datenvektoren mit den hinterlegten Labels möglichst 
eindeutig in zwei Gruppen aufteilt. Werden beim Training des Decision 
Trees zu viele Verzweigungen zum Baum hinzugefügt ist ein Overfitting 
zu erwarten, bei sehr wenigen kann es zu einem Underfitting kommen 
[38][74]. 

Random Forests (Zufallswälder) bestehen aus n Entscheidungsbaumen 
und können sowohl fiir Klassifikations-, als auch fiir Regressionsauf- 
gaben eingesetzt werden. Bei der Regression gibt es, anders als bei der 
Klassifikation, keine diskreten Ergebnisse, sondern kontinuierliche Wer- 
tebereiche. Im Training der Random Forests wird ein zugrundeliegender 
Datensatz auf n, zufällig ausgewählte Datensätze aufgeteilt. Jede dieser 
Teilmengen wird wie oben beschrieben für die Erstellung eines Decision 
Trees verwendet. Zur Klassifikation wird ein Datenvektor durch alle Ent- 


39 


GRUNDLAGEN 


Trainingsdaten 


Entscheidungsbaum 1 Entscheidungsbaum 2 Entscheidungsbaum n 


Abbildung 2.13: Aufbau von Random Forests, nach [75] 


scheidungsbäume bewertet. Anschließend wird aus allen Ergebnissen, 
z.B. mittels Mehrheitsprinzip oder Vergleich mit einem Schwellwert, eine 
Entscheidung gebildet. Für eine Regression können bspw. alle Ausgänge 
der einzelnen Decision Trees gemittelt werden [38][76]. 


2.8 Transfer Learning 


Transfer Learning ist die Fähigkeit eines Systems gelerntes Wissen aus 
einer oder mehreren Aufgaben bzw. Bereichen A in eine andere, neue 
Aufgabe bzw. Bereich B zu übertragen [77]. Hierfür kann beispielsweise 
ein ANN mit Trainingsdaten aus A vortrainiert werden, um anschlie- 
ßend mit einer kleineren Anzahl von Daten aus B nachtrainiert zu wer- 
den (vgl. Abbildung 2.14) [39][77]. Dadurch kann das ANN schneller 
und mit weniger Daten als in einer klassischen Herangehensweise trai- 
niert werden, bei der das Netzwerk mit zufällig initialisierten Neuronen 
trainiert wird. Außerdem können mit diesem Ansatz genauere Prädik- 
tionen erreicht werden [78]. Neben ANNs können klassische Machine 
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Learning Algorithmen, wie z.B. Decision Trees oder Random Forests, 
mittels Transfer Learning an eine spezielle Aufgabe angepasst werden 
[79]. Auch Menschen machen sich das Übertragen von Wissen aus einem 
oder mehreren Bereichen in einen neuen Bereich zu Nutze, um schneller 
lernen zu können [77][78]. Gleiches ist im Machine Learning möglich 
und kann für Klassifikations-, Regressions- und Clusteringaufgaben 
eingesetzt werden [77]. 


(b) 


(a) 


Trainiertes | Trainiertes | Trainiertes | Gelerntes = 
Modell Modell Modell Wissen Modell 


Abbildung 2.14: Funktionsprinzip von klassischen ANNs (a) und Transfer Learning (b), 
nach [77] 


Das Transfer Learning zum Übertragen von Wissen in ein neues Modell 
kann auf verschiedene Arten durchgeführt werden. Eine Möglichkeit 
besteht darin, alle Parameter des Modells mittels Fine Tuning (Feinan- 
passung) an die neue Aufgabe anzupassen. Dies geschieht indem die 
Parameter des ANNs durch Trainieren mit dem initialen Datenset der 
Aufgabe A trainiert bzw. initialisiert und durch Training mit einer klei- 
nen Lernrate an die Aufgabe B angepasst werden [80][81]. Durch das 
vollständige Nachtrainieren aller Parameter erlaubt diese Variante im 
Vergleich zu den nachfolgend beschriebenen ein nur sehr langsames 
Training [81]. Ist der Datensatz der Aufgabe B klein und die Anzahl der 
Parameter groß, kann es durch das Fine Tuning des ANN zu Overfitting 
kommen [80]. 
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Eine weitere Alternative für das Iransfer Learning neuronaler Netze ist 
das Hinzufügen einer oder mehrerer Schichten vor dem Output Layer. 
Hier wird das ursprüngliche Netzwerk mit den Daten aus A vortrai- 
niert, neue Schichten hinzugefügt und schließlich werden diese mit dem 
Datensatz B an eine spezielle Aufgabe angepasst bzw. trainiert. Durch 
erneutes Training einer oder weniger Schichten, fällt die Trainingszeit für 
das Transfer Learning kürzer aus, als für das Fine Tuning, während v.a. 
für kleine Datensätze B gute Ergebnisse erzielt werden können. Enthal- 
ten die hinzugefügten Schichten jedoch sehr viele Parameter und ist der 
Datensatz B klein, können diese Schichten nicht ausreichend trainiert 
werden [81]. 

Eine letzte Methode des Transfer Learnings ist das Anpassen bzw. Nach- 
trainieren einzelner Schichten, wobei die Parameter aller anderen Schich- 
ten den Wert der vortrainierten Aufgabe A beibehalten. Das Nachtrainie- 
ren der ersten Schichten des ANNs ist v.a. für Anwendungen sinnvoll, 
bei denen A und B gleiche Ausgabewerte aber unterschiedliche Ein- 
gangsdaten aufweisen (z.B. Spracherkennung) [39][81]. Im Gegensatz 
dazu sollten für ähnliche Eingangsdaten und unterschiedliche Ausgänge 
vor allem die letzten Schichten nachtrainiert werden [39]. 

Transfer Learning findet heute in verschiedenen Bereichen Anwendung, 
v.a. dann, wenn für ein bestimmtes Problem nur sehr wenige Trainings- 
daten zur Verfügungen stehen [39]. Dies betrifft insbesondere medizini- 
sche Anwendungen, wie z.B. die medizinische Bildverarbeitung bei der 
Erkennung von Speiseröhrenkrebs [82] oder dem Klassifizieren von Me- 
lanomen [83][84]. Weitere Anwendungsbereiche sind die Analyse von 
Webdaten, z.B. sozialer Medien [49], oder die Analyse von Zeitreihen 
[85]. Domeyer et al. zeigen in ihrer Studie, dass sich auch das Fahrver- 
halten von Fahrern an Zebrastreifen messbar unterscheidet und deshalb 
fahrerspezifische Unterschiede betrachtet werden sollten [86]. Weil die 
generelle Aufgabe das Fahrverhalten zu erkennen gleich bleibt, bietet 
sich Transfer Learning mit einem allgemein trainierten Algorithmus an. 
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STAND DER TECHNIK 


Dieses Kapitel zeigt den Stand der Technik für die Kommunikation und 
(Fahrer-) Intentionserkennung im Straßenverkehr auf. Dafür wird zu- 
nächst die Kommunikation von Verkehrsteilnehmern analysiert und 
daraus die Notwendigkeit der Fahrzeug-Fußgänger-Kommunikation 
automatisierter Fahrzeuge abgeleitet. Anschließend werden bereits be- 
kannte Konzepte einer Intentionserkennung im Straßenverkehr und die 
Absicherung datenbasierter Algorithmen betrachtet. Zuletzt wird ein 
Vergleich von neuronalen Netzen und konventionellen Algorithmen 


vorgenommen. 


3.1 Kommunikation im Straßenverkehr 


Im heutigen Straßenverkehr ist eine Kommunikation zwischen Verkehrs- 
teilnehmern omnipräsent. Das Ziel jeder Kommunikation zwischen Ver- 
kehrsteilnehmern ist nach Merten das Vermeiden bzw. das Minimieren 
von Gefahren [3], wobei v.a. Fußgänger, und diese insbesondere bei 
Nacht, gefährdet sind [7][13][87]. Des Weiteren findet eine Kommuni- 
kation zwischen Verkehrsteilnehmern auch statt, um den Verkehrsfluss 
sicherzustellen oder fehlende Regelungen und Störungen zu kompen- 
sieren [3][88]. Prinzipiell ist der Straßenverkehr durch Regeln geordnet, 
doch können damit einige Situationen nicht eindeutig festgelegt wer- 
den [88]. Solche Situationen können durch eine Kommunikation bzw. 
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Interaktion gelöst werden [89]. Zusätzlich findet eine Kommunikation 
beispielsweise zur Warnung, Danksagung oder Entschuldigung An- 
wendung [3][4], wobei sie vor allem für Fußgänger an Fußgängerüber- 
wegen entscheidend ist [10]. So empfiehlt bspw. die NHTSA und das 
US-Verkehrsministerium allen Fußgängern, den geltenden Regeln nur 
eingeschränkt zu vertrauen und unbedingt Augenkontakt mit Fahrern 
sich annähernder Fahrzeuge herzustellen [6]. Folglich nutzen Fußgänger 
die Kommunikation an Fußgängerüberwegen um sich abzusichern, von 
Fahrern gesehen worden zu sein und Vorfahrt gewährt zu bekommen 
[19], v.a. wenn keine Verkehrsschilder oder -ampeln die Situation eindeu- 
tig regeln [2]. Zusätzlich wird die Kommunikation von vielen Fußgän- 
gern eingesetzt, um die Aufmerksamkeit anderer Verkehrsteilnehmer 
zu erhöhen [18]. Bei fehlender Kommunikation verlieren Fußgänger 
das Vertrauen in andere Verkehrsteilnehmer und fühlen sich unsicher 
[90][91]. 

Aus diesen Gründen kommunizieren nach Rasouli et al. über 90 % der 
Fußgänger bevor sie die Straße überqueren auf unterschiedlichste Arten, 
mindestens durch einen kurzen Blick auf das sich annähernde Fahrzeug 
[2]. Neben der Schemantismenbildung, z.B. aufgrund von Fahrzeugtyp 
oder Fahrweise [4][88], und implizierter Kommunikation, z.B. durch 
Bewegung, Körperhaltung oder Distanzverhalten [3][17], ist im Stra- 
ßenverkehr vor allem eine explizite Kommunikation anzutreffen. Für 
eine explizite Kommunikation setzen Verkehrsteilnehmer v.a. Gestik 
und Mimik, z.B. Kopfnicken oder Handzeichen [3], und Mitteilungen 
über technische Einrichtungen des Fahrzeugs ein, z.B. (Licht-) Hupe 
oder Fahrtrichtungsanzeiger [4]. Darüber hinaus spielt der Blickkontakt 
zwischen zwei Verkehrsteilnehmern, z.B. Fahrer und Fußgänger, bei der 
expliziten Kommunikation eine entscheidende Rolle. Dieser Blickkon- 
takt ist im engeren Sinn kein Zeichen einer Kommunikation, sondern ein 
Mittel, diese zu starten [3][10]. Trotzdem wird der Blickkontakt häufig 
als eine der wichtigsten Arten der Kommunikation beschrieben und 
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findet in fast jeder Interaktion Anwendung [2][12][92][93]. Es scheint, als 
sei ein Blickkontakt weniger eindeutig oder verlässlich als vorgeschrie- 
bene Zeichen, wie z.B. eine Lichthupe, doch ist dies nicht der Fall [4]. 
Informelle Zeichen spielen im heutigen Straßenverkehr eine bedeuten- 
de Rolle, auch wenn sie je nach Situation oder Verkehrsteilnehmer in 
Verwendung, Ausprägung und Bedeutung variieren können [4][88]. 


Bei der Kommunikation im heutigen Straßenverkehr ergeben sich einige 
Schwierigkeiten, welche v.a. auf die Verständlichkeit der Signale bzw. 
der zugrundeliegenden Nachricht zurückzuführen sind. Eine mögliche 
Ursache für eine gescheiterte Kommunikation ist, dass das Signal, we- 
gen zu geringer Aufmerksamkeit oder zu großer Störung des Kanals, 
nicht als solches wahrgenommen wird [3]. Obwohl der Blickkontakt zu 
mindestens 90 % beim Überqueren einer Straße eingesetzt wird (siehe 
oben), ist gerade dieser von dem Problem betroffen, nicht als Signal 
wahrgenommen zu werden. Er ist nur auf eine sehr kurze Distanz zu- 
verlässig erkennbar [94] und kann z.B. durch das Spiegeln der Scheiben 
beeinträchtigt werden [95]. Auch Dunkelheit und schlechte Sichtverhält- 
nisse erschweren die Kommunikation zwischen Verkehrsteilnehmern 
[4][5]. Eine weitere Schwierigkeit für die Kommunikation ist die richti- 
ge Wahrnehmung auf der Bedeutungsebene bzw. das Dekodieren des 
Signals in eine sinnvolle Nachricht [3]. Die meisten der heute verwen- 
deten Signale sind mehrdeutig und können teilweise nicht oder sogar 
konträr gedeutet werden [4][88]. Dies ist vor allem durch die begrenz- 
ten Möglichkeiten einer Kommunikation im Straßenverkehr bedingt 
[30]. Eine falsch interpretierte Nachricht, v.a. bei konträrer Deutung, 
kann erhebliche Risiken hervorrufen [28]. In diesem Zusammenhang ist 
als weitere Einschränkung der Kommunikation im Straßenverkehr zu 
nennen, dass es keinen standardisierten Verkehrsteilnehmer gibt [14]. 
So sind v.a. international und kulturell ausgeprägte Unterschiede im 
Kommunikationsverhalten zu beobachten [17][88]. Zuletzt sind im Stra- 
Senverkehr häufig Situationen anzutreffen, in denen möglichst schnell 


45 


STAND DER TECHNIK 


mit unterschiedlichen Verkehrsteilnehmern kommuniziert werden muss, 
weshalb sich die Kommunikation auf eine möglichst kurze Dauer be- 
schränkt [3]. Aus diesem Grund findet teilweise keine Kommunikation 
statt, wobei dies auch durch die Anonymität im Verkehrsraum und der 
vermittelten Sicherheit des eigenen Fahrzeugs als eine Art Schutzschild 
begünstigt wird [3][4]. 


3.2 Fahrzeug-Fußgänger-Kommunikation 


Eine Fahrzeug-Fußgänger-Kommunikation ermöglicht einerseits Signale 
zwischen Fahrer und Fußgänger sowohl einheitlich als auch eindeutig er- 
kennbar auszutauschen und andererseits, dass automatisierte Fahrzeuge 


mit anderen Verkehrsteilnehmern interagieren. 


3.2.1 Notwendigkeit einer Fahrzeug-Fußgänger- 
Kommunikation automatisierter Fahrzeuge 


Im heutigen Straßenverkehr sind die zur Kommunikation verwendeten 
Zeichen nicht immer eindeutig oder sichtbar. Jedoch können mit Hilfe 
einer Kommunikation durch das Fahrzeug die informellen Zeichen des 
Fahrers ergänzt werden, um die gewünschte Nachricht eindeutig und 
zuverlässig übermitteln zu können. Darüber hinaus besteht vor allem 
bei automatisierten Fahrzeugen ein hoher Bedarf zur Kommunikation 
mit anderen Verkehrsteilnehmern, um insbesondere das Sicherheitsemp- 
finden von Fußgängern zu steigern. 

Assistierte und automatisierte Fahrzeuge werden laufend weiterentwi- 
ckelt und sind immer häufiger anzutreffen [9][96]. Mittlerweile gibt es 
zahlreiche Teststrecken in Europa, USA und Asien und auch automa- 
tisierte Serienfahrzeuge stehen vor einer zeitnahen Markteinführung 
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[96][97]. Diese werden unter Hochdruck entwickelt, da der Einsatz au- 
tomatisierter Fahrzeuge vor allem zu einer deutlich höheren Straßen- 
verkehrssicherheit führt [9]. Außerdem kann durch vollautomatisierte 
Fahrzeuge die Mobilität für bestimmte Personengruppen, z.B. Alte, Kin- 
der oder Gehbehinderte, erhöht werden [30][91]. 


Den Vorteilen automatisierter Fahrzeuge kann entgegengesetzt werden, 
dass kein Fahrer für die Kommunikation mit anderen Verkehrsteilneh- 
mern im Fahrzeug zur Verfügung steht bzw. dieser als Passagier nicht 
aufmerksam am Verkehr teilnimmt [86]. Aus diesem Grund ist die in Ka- 
pitel 3.1 beschriebene Kommunikation zwischen Verkehrsteilnehmern, 
v.a. zwischen Fahrer und Fußgänger, nicht mehr vorhanden. Damit 
werden auch die Gründe für die Kommunikation im heutigen Straßen- 
verkehr, wie Sicherstellen des Verkehrsflusses, Warnung vor Gefahren, 
Sicherheit für Fußgänger, erkannt zu werden und das Vertrauen in ande- 
re Verkehrsteilnehmer (siehe Kapitel 3.1), nicht mehr erfüllt. 


Für die erfolgreiche Einführung und die Akzeptanz von automatisierten 
Fahrzeugen ist das Vertrauen in die neuen Verkehrsteilnehmer eine unbe- 
dingt notwendige Bedingung [32]. Dies trifft v.a. für Gefahrensituationen 
zu, gilt jedoch auch für die alltägliche Interaktion mit Fahrradfahrern 
oder Fußgängern [10][98]. Domeyer et al. nennen in diesem Zusammen- 
hang ein Phänomen namens Dread-Risk, welches die Angst vor Kon- 
trollverlust bei sehr unwahrscheinlichen, aber verheerenden Ereignissen 
beschreibt [86]. Im Zusammenhang mit automatisierten Fahrzeugen 
kann hier beispielhaft eine Fehlfunktion dieser bei der Detektion eines 
Fußgängers mit tödlichen Folgen genannt werden. Nach Schaudt und 
Russell ist für die Steigerung des Vertrauens in automatisierte Fahrzeu- 
ge eine erfolgreiche Kommunikation essentiell, welche die informellen 
Zeichen der Fahrer ersetzt [89]. Auch das Kennzeichnen automatisierter 
Fahrzeuge bzw. Anzeige deren Fahrmodi kann einen entscheidenden 
Beitrag zur Akzeptanz dieser neuen Technologie darstellen und ein 
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abweichendes Verhalten des Fahrers von der Fahrzeugbewegung bzw. 
Fahraufgabe erklären [88]. 


Basierend auf diesen Erkenntnissen empfiehlt die Ethik-Kommission 
des Bundesministeriums für Verkehr und digitale Infrastruktur, dass 
kritische Situationen beim automatisierten Fahren unbedingt vermieden 
werden sollen und dafür bspw. spezielle Signale für gefährdete Personen, 
z.B. Fußgänger oder Fahrradfahrer, eingesetzt werden können. Automa- 
tisierte Fahrzeuge sollen auch insbesondere Rücksicht auf schwächere 
Verkehrsteilnehmer nehmen, weshalb v.a. eine Kommunikation mit Fuß- 
gängern essentiell ist. Es soll auch eindeutig unterscheidbar sein, ob 
ein fahrerloses System genutzt wird oder der Fahrer die Verantwortung 
über die Fahraufgabe hat [9]. 


3.2.2 Kommunikationskonzepte automatisierter 
Fahrzeuge 


Zur Kommunikation automatisierter Fahrzeuge mit anderen Verkehrs- 
teilnehmern sind in der Literatur verschiedene Konzepte zu finden. Sie 
basieren auf unterschiedlichen Anzeigetechnologien und Methoden zur 
Interaktion mit Verkehrsteilnehmern, insbesondere Fußgängern. 


Kodierte Leuchten bzw. eindimensionale Leuchtenarrays 


Eine technisch einfach umzusetzende visuelle Kommunikation kann 
mit Hilfe kodierter Leuchten bzw. einzeiliger Leuchtenarrays erfolgen 
(vgl. Abbildung 3.1 (a)). Diese sind zumeist horizontal im Bereich der 
Frontscheibe des Fahrzeugs angebracht und verfügen über mindestens 
drei einzeln ansteuerbare Segmente [30][99][100]. Zur Anzeige verschie- 
dener Botschaften werden die Leuchten häufig kodiert aktiviert, d.h. 
es leuchten nur einzelne Segmente des Arrays, oder mit Dynamiken, 
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wie Pulsieren oder Blinken, versehen. Das Lauflicht bzw. die kodierte 
Leuchte ist dabei stets symmetrisch ausgeführt [30]. Das in Abbildung 
3.1 (a) dargestellte Beispiel zeigt eine weiße Leuchte, wobei auch farbige 
Leuchtmittel eingesetzt werden, z.B. in Gelb oder Türkis [101]. Diese Far- 
ben werden in manchen Kommunikationskonzepten auch alternativ zur 
Kodierung der eindimensionalen Leuchtenarrays eingesetzt [17][102]. 


Abbildung 3.1: Beispiel für eine kodierte Leuchte in Form eines eindimensionalen Leuch- 
tenarrays (a) und Display zur Anzeige von Symbolen (b), nach [103] 


Displays und komplexere Anzeigemedien 


Zweidimensionale bzw. mehrzeilige Leuchtenarrays und technologisch 
komplexere Anzeigemedien, wie z.B. Projektoren oder Displays, werden 
häufig für eine optische Kommunikation mit anderen Verkehrsteilneh- 
mern untersucht. Über die Anzeigeflächen werden grafisch aufbereitete 
Zeichen dargestellt, bspw. Symbole, Piktogramme und Texte, welche 
zumeist asymmetrisch dargestellt werden [28][29][104]. Neben weißen 
Lichtsignalen werden auch farbige Darstellungen in der Literatur be- 
schrieben [28][105]. Ergänzend zur Anzeige von Symbolen und Texten 
am Fahrzeug, welche im Bereich der Leuchten oder des Kühlergrills 
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erfolgen (vgl. Abbildung 3.1 (b)), sind in der Literatur alternativ Projek- 
tionen von Zeichen auf die Fahrbahnoberfläche oder in der Heckscheibe 
zu finden [106][107]. 


Weitere Kommunikationskonzepte 


Weitere Konzepte zur Kommunikation automatisierter Fahrzeuge mit an- 
deren Verkehrsteilnehmern, v.a. mit Fußgängern, werden bspw. mittels 
Fahrzeugbewegung, akustischer Signale oder Mobilkommunikation mit 
mobilen Endgeräten umgesetzt. Hierbei sind v.a. die Fahrzeugbewegung 
bzw. die Veränderung der Fahrzeugdynamik und des Fahrzeugzustands 
häufig untersuchte Zeichen, da diese Art der Kommunikation bereits 
im Straßenverkehr anzutreffen ist [19][86]. Pennycooke sowie Maha- 
devan et al. beschreiben zusätzlich die Möglichkeit mittels akustischer 
Zeichen und Lautsprecher bzw. direkt mit dem mobilen Endgerät eines 
Fußgängers zu kommunizieren [17][108][109]. 


Bewertung der Konzepte zur Fahrzeug-Fußgänger-Kommunikation 


Wie bereits in Kapitel 3.1 beschrieben, bietet sich v.a. der visuelle Kanal 
für die Kommunikation im Straßenverkehr an. Akustische Signale sind 
dagegen fast ausschließlich zur Kommunikation in Gefahrensituationen 
geeignet. Deshalb soll diese Art der Zeichengebung nicht weiter betrach- 
tet werden. Die Kommunikation mittels Fahrzeugdynamik und -zustand 
ist auch bei automatisierten Fahrzeugen stets zu beobachten, kann je- 
doch bei schlechten Sichtverhältnissen, z.B. Dunkelheit, kaum erkannt 
werden [4][5]. Ähnlich kann eine Projektion von Lichtzeichen auf die 
Fahrbahn in hellen Umgebungen nicht oder nur schwer erkannt werden, 
weshalb auch diese Möglichkeit der Kommunikation nicht universell 
einsetzbar ist [30]. Das Übertragen von Nachrichten vom Fahrzeug auf 
ein mobiles Endgerät, z.B. Smartphone, setzt voraus, dass der Fußgänger 
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ein solches besitzt und schnellen Zugriff darauf hat. Deshalb soll auch 
dieses Kommunikationskonzept nicht weiter verfolgt werden. 


Generell sinnvoll ist die optische Kommunikation von Nachrichten mit- 
tels Leuchtenarrays und Displays. Kodierte oder farbige Leuchten so- 
wie die Anzeige von Texten oder Symbolen spannen den möglichen 
Lösungsraum für die Fahrzeug-Fußgänger-Kommunikation auf und 
können sowohl in hellen als auch dunklen Umgebungen sicher erkannt 
werden. Diese Konzepte können wie Tagfahrlichter oder Positionsleuch- 
ten gestaltet und damit unter fast allen Umgebungsbedingungen sicher 
wahrgenommen werden. Eine Studie von Othersen et al. zeigt, dass Dis- 
plays bzw. zweidimensionale Leuchtenarrays positiver bewertet werden 
als einfache Zeichen bzw. Fahrzeugdynamik. Dies hängt vermutlich mit 


dem Informationsgehalt pro verwendeten Zeichen zusammen [19]. 


3.3 Intentionserkennung im Straßenverkehr 


Durch die steigende Automatisierung von Fahrfunktionen und stetige 
Innovation im Bereich der Assistenz- und Sicherheitssysteme nimmt 
der Bedarf zu, menschliche Verhaltensweisen im Straßenverkehr zu 
erkennen. Dafür gibt es bereits in der Literatur verschiedene Anwen- 
dungsbeispiele. So beschäftigen sich viele Veröffentlichungen mit einer 
Intentionserkennung von Fußgängern mittels konventioneller Algorith- 
men und ANNs [110][111][112][113]. In [114] und [115] wird jeweils die 
Prädiktion von Verhaltensweisen anderer Verkehrsteilnehmer / Fahrer 
mittels RNNs und LSTMs beschrieben. Weiter werden in der Literatur 
Schätzungen der Fahrzeugtrajektorie untersucht, um bestehende Assis- 
tenzsysteme weiterzuentwickeln oder neue Anwendungen umzuset- 
zen [116][117][118][119][120]. Hierfür werden in vier der recherchierten 
Quellen LSTM basierte Modelle verwendet. Weitere Funktionen sind 
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die Prädiktion eines Fahrstreifenwechsels [121][122][123][124] oder eine 
allgemeine Manöverdetektion [125][126][127][128]. Während in diesen 
Arbeiten bei der Prädiktion des Fahrstreifenwechsels drei Forschergrup- 
pen konventionelle Algorithmen verwenden, kommen bei allgemeinen 
Manöverdetektionen neben einem Hidden Markov Model und einer 
Support Vector Machine zwei RNNs zum Einsatz. 


Auch für die in dieser Arbeit vorgestellte Fahrerintentionserkennung ei- 
nes Anhaltens an Zebrastreifen ist bereits ein Stand der Technik bekannt. 
Mittels der Hämoglobinkonzentration im zerebralen Kortex bestimmen 
Zhu et al. in einem Fahrsimulatorversuch die Intention des Fahrers 
anzuhalten [129]. Mit Hilfe eines ANNs lies sich dabei eine Treffergenau- 
igkeit von 80,39 % erzielen. Tran et al. trainierten ein Hidden Markov 
Model (HMM) zur Erkennung von Anhalteintentionen und erreichten 
damit eine Treffergenauigkeit von ca. 90% [124]. Im Gegensatz dazu 
verwenden Garcia Ortiz et al. zur Erkennung von Anhaltefällen an Ver- 
kehrsampeln ANNs [130]. Sie gehen von einem Prädiktionshorizont von 
1s bis 2s aus und erreichen hier eine RPR/FPR von ungefähr 87 %/10 % 
bis 65 %/10 %. 


3.4 Absicherung datenbasierter Algorithmen 


Sicherheit (Safety) ist einer der elementarsten Aspekte in der Automobil- 
entwicklung. Durch zunehmende Integration von Funktionen in Fahr- 
zeuge wächst deshalb der Bedarf an funktionaler Sicherheit sowie der 
Beweis deren Einhaltung [131]. Grundsätzlich wird die Sicherheit eines 
Systems durch die Abwesenheit von unzumutbaren Fehlern definiert 
[132][133] und funktionale Sicherheit als Abwesenheit unzumutbarer 
Fehler, welche durch Elektrik-/Elektronik-Systeme verursacht werden 
[132]. In sicherheitskritischen Anwendungen können Fehlerzustände zu 
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materiellen Schäden, finanziellen Schäden oder sogar zur Gefährdung 
von Menschenleben führen [134]. Deshalb behandelt bspw. die Norm 
ISO 26262 die Sicherheit von Fahrzeugen. Hier ist die Einstufung eines 
Systems in ein Automotive Safety Integrity Level (ASIL) beschrieben, 
welches durch die drei Freiheitsgrade Wahrscheinlichkeit (probability), 
Kontrollierbarkeit (controllability) und Schwere (severity) in ASIL-A bis 
ASIL-D eingeteilt wird [135]. Die Sicherheitsanalyse ist davon abhangig, 
wie vollstandig und genau ein System verstanden werden kann [136], 
wobei bei steigender technologischer Komplexität von einem steigenden 
Risiko für systematische Fehler ausgegangen werden kann [131]. 
Übertragen auf die Softwareentwicklung und insbesondere auf Ma- 
chine Learning basierte Algorithmen, ist es notwendig, Maßnahmen 
zum Erreichen von funktionaler Sicherheit umzusetzen [132][136]. Faria 
nennt hierfür bspw. die Verifikation und Interpretierbarkeit von Ergeb- 
nissen sowie eine konstruktive Sicherheit [136]. Die Verifikation kann 
u.a. durch geeignete Verfahren, Algorithmen und Testprotokolle erfol- 
gen, wie z.B. von Hull et al. [137], Gehr et al. [138] oder Huang et al. 
[139] beschrieben. Eine Interpretierbarkeit ist bei komplexen Machine 
Learning Algorithmen häufig nicht sichergestellt [136], trotzdem sollten 
nach Varshney und Alemzadeh durch Menschen interpretierbare Mo- 
delle bevorzugt werden [133][140]. Eine konstruktive Sicherheit kann 
bspw. durch Berücksichtigung von Fehlerfällen beim Aufstellen einer 
Kostenfunktion erreicht werden [134][136]. Diese Fehlerfälle treten häu- 
fig in seltenen oder unerwarteten Situationen auf [133]. Dennoch ist es 
kaum möglich vorherzusagen, ob Machine Learning Algorithmen die 
richtigen Entscheidungen treffen werden, weil ihr Modell basierend auf 
bereitgestellten Daten erlernt wird [136]. 

Auch wenn Verfahren zur Verifikation oder Überwachung der Sicher- 
heit von ANNs vorliegen [134][137][138][139], sind v.a. tiefe neuronale 
Netze kaum interpretierbar und nahezu als Black-Box zu betrachten 
[133][136][140]. Die Anpassungsfähigkeit und Genauigkeit von ANNs 
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wird von konventionellen Machine Learning Algorithmen nur selten 
übertroffen, doch prädizieren bzw. klassifizieren sie meistens auf Basis 
anderer Kriterien, als derer, die von den Entwicklern intendiert waren 
[141]. Trotzdem können einige Aspekte bei der Entwicklung neuronaler 
Netze berücksichtigt werden, um die funktionale Sicherheit zu erhöhen. 
So spielt vor allem der verwendete Datensatz eine entscheidende Rolle, 
welcher eine realitätsnahe Verteilung der Klassen und Situationen be- 
sitzen sollte [136]. Irrelevante Features sollten vor dem Training eines 
ANNs auf jeden Fall aus dem Datensatz entfernt werden [133]. Darüber 
hinaus sollte der Trainingsdatensatz ständig erweitert und verbessert 
werden, um ein optimales Modell für die jeweilige Aufgabe zu finden 
[142]. Weiter hängt die Sicherheit von der Modellauswahl, z.B. Anzahl, 
Größe und Aufbau der Schichten, und den verwendeten Features bzw. 
deren Vorverarbeitung ab [136][140], wobei auch hier das No Free Lunch 
Theorem gilt, nachdem es keine perfekte Lösung für alle Problemstellun- 
gen gibt [41]. Als letztes weißt Al-Khourny darauf hin, dass end-to-end 
Ansätze als nicht interpretierbar gelten und daher eine Einteilung in lo- 
gische Unteraufgaben erfolgen sollte [134]. Dies entspricht dem Prinzip 
Divide-and-Conquer (teile und herrsche) [143]. 


3.5 Vergleich von neuronalen Netzen mit 
konventionellen Algorithmen 


ANNs finden mittlerweile häufig bei der Analyse und Prädiktion von 
Zeitreihen Anwendung, wobei konventionelle Algorithmen diese Auf- 
gaben schon lange bearbeiten [39][70][144]. Zu den konventionellen 
Algorithmen zählen bspw. das Kalman Filter, HMMs, Auto Regressive- 
Moving Average (ARMA) und Auto Regressive Integrated Moving 
Average (ARIMA) [51][70][144]. 
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Für Anwendungen mit sequentiellen Daten oder Eingangsgrößen sind 
in der Literatur viele Vergleiche zwischen konventionellen Algorith- 
men und ANNs zu finden. So übertreffen neuronale Netze den ARIMA 
Algorithmus zur Vorhersage von Wind [145], Hypothekbelastung, Pas- 
sagierzahlen [146] oder für den Wechselkurs von Devisen [51]. Für diese 
Anwendung konnten ANNs auch höhere Genauigkeiten als ARMA und 
Box-Jenkins Algorithmen erreichen, weil diese im Gegensatz zu ANNs 
lediglich lineare Zusammenhänge annehmen [51]. Kim zeigt als Vorteil 
von LSTMs auf, dass diese im Gegensatz zu Support Vector Machi- 
nes (SVMs) und ARIMA nicht nur wenige (ca. 5), sondern viele (bis zu 
1000 [71]) Sequenzschritte der Vergangenheit einbeziehen können [146]. 
Einen Vergleich zu SVMs sowie Gaussian Mixture Models (GMMs) und 
Conditional Random Fields (CRFs) ziehen auch Salehinejad und San- 
kar mit dem Ergebnis, dass RNNs zeitliche Zusammenhänge, z.B. für 
Textanalyse oder Audioverarbeitung, besser modellieren können [72]. 
DeCruyenaere und Hafez verglichen bereits 1992 ein Kalman Filter mit 
RNNs wobei die neuronalen Netze das konventionelle Filter übertra- 
fen [147]. Gers beschreibt in seiner Arbeit, dass LSTMs konventionelle 
Algorithmen wie Random Guessing, Symbolic Grammar Learning Al- 
gorithm (SGLA) und HMMs fiir verrauschte Signale mit variabler Se- 
quenzlänge übertreffen [70]. RNNs und somit auch LSTMs können, wie 
oben beschrieben, Daten mit variabler Eingangslange verarbeiten, was 
mit konventionellen Ansätzen nicht oder nur begrenzt möglich ist (siehe 
Kapitel 2.5). Umematsu et al. zeigen, dass LSTMs Modelle mit linearer 
Regression und SVMs für die Prädiktion von Stresslevel übertreffen 
[148]. 

RNNs können jedes dynamische System modellieren und werden daher 
für verschiedenste Anwendungen eingesetzt, z.B. Textanalyse, Spracher- 
kennung, -synthese, Audioanalyse, etc. [72]. So stellen LSTMs heute in 
unterschiedlichen Anwendungen den Stand der Technik dar und gelten 
als Maßstab für eine korrekte Prädiktion, wie z.B. bei Nutzungsverhalten 
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von Mobilitatsdiensten [149], Manöverprädiktion von Fahrzeugen an 
Kreuzungen [150] oder Benchmarkdatensätze [151]. Einschränkend gilt 
jedoch auch hier, dass obwohl ANNs, insbesondere RNNs gegenüber 
konventionellen Algorithmen signifikante Vorteile aufweisen, sie keine 
perfekte Lösung für alle Probleme darstellen und das No Free Lunch 
Theorem berücksichtigt werden muss [41]. 
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LICHTBASIERTE FAHRZEUG- 
FUSSGÄNGER-KOMMUNIKATION 


Dieses Kapitel beschreibt Untersuchungen zur lichtbasierten Fahrzeug- 
Fußgänger-Kommunikation, mit der sowohl „manuelle“ als auch au- 
tomatisierte Fahrzeuge in Zukunft mit anderen Verkehrsteilnehmern 
kommunizieren können. Hierfür wird nach der Definition der Anforde- 
rungen an ein solches System eine Voruntersuchung zur Intuitivität von 
Symbolen beschrieben. Anschließend folgt die Analyse der unterstüt- 
zenden Wirkung von Farben auf die Verständlichkeit von Symbolen in 
einer Probandenstudie und eine abschließende Untersuchungskritik. 


4.1 Anforderungen an die Kommunikation mit 
anderen Verkehrsteilnehmern 


Das Dekodieren des empfangenen Signals und Verstehen der Nachricht 
setzt sich beim Empfänger aus zwei Komponenten zusammen. Zuerst 
muss der adressierte Verkehrsteilnehmer das Zeichen erkennen, um es 
anschließend funktional zu deuten [152]. Unter der Voraussetzung, dass 
das Zeichen richtig erkannt werden kann, müssen beide Kommunika- 
tionspartner der Nachricht die gleiche Bedeutung zuordnen. Bei der 
Anzeige von Text mittels Displays oder Leuchtenarrays am Fahrzeug 
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bedeutet das, dass alle adressierten Kommunikationspartner lesen kön- 
nen und die gleiche Sprache verstehen müssen [21]. Deshalb und weil 
Textnachrichten, abgesehen von kurzen Ausdrücken wie „Stopp“, sehr 
langsam erkannt und verstanden werden, wird diese Art der Kommuni- 
kation im Straßenverkehr und für automatisierte Fahrzeuge nur selten 
eingesetzt [153]. 


Relevante Nachrichten für die Fahrzeug-Fußgänger-Kommunikation 


In der Literatur finden sich verschiedenste Nachrichten, welche mit 
lichtbasierten Kommunikationsmitteln anderen Verkehrsteilnehmern 
kommuniziert bzw. signalisiert werden. Häufig wird die Notwendigkeit 
für eine Statusanzeige des Fahrmodus genannt, ob ein Fahrzeug auto- 
matisiert oder „manuell“ betrieben wird [9][30][31][154]. Dies ist, wie 
in Kapitel 3.2.1 beschrieben, besonders notwendig, um eindeutig die 
Verantwortlichkeit des Fahrzeugs für die Fahraufgabe anzuzeigen, Ver- 
trauen aufzubauen und Akzeptanz für die neue Technologie zu schaffen. 


Außerdem wird besonders eine Kommunikation mit Fußgängern emp- 
fohlen. Diese Interaktion mit schwächeren Verkehrsteilnehmern ist schon 
im heutigen Straßenverkehr essentiell (siehe Kapitel 3.1). Auch hier 
spielt das Vertrauen in andere Verkehrsteilnehmer eine entscheidende 
Rolle, wobei auch das Vermeiden bzw. das Minimieren von Gefahren 
Gründe für eine Kommunikation sind, z.B. wenn sich die Trajektori- 
en von Fahrzeugen und Fußgängern überschneiden und sich dadurch 
das Unfallrisiko erhöht. Deshalb liegt das Anzeigen von Zeichen für 
das Erkennen eines Fußgängers [10][30], Empfehlung die Straße nicht 
zu überqueren [28][30] oder Vorfahrt gewähren [19][28][30][92] nahe. 
Die Empfehlung, die Straße nicht zu überqueren, könnte dabei durch 
das Fehlen einer Kommunikation implizit dargestellt werden. Wenn 
also kein Zeichen angezeigt wird, welches dem Fußgänger eine positive 
Nachricht sendet, kann er davon ausgehen, dass das Gegenteil zutrifft 
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und er in diesem Fall die Straße nicht überqueren sollte. Das Vorfahrt 
gewähren und eine Kommunikation der Anfahrintention kann sowohl 
an Fußgänger, als auch an motorisierte Verkehrsteilnehmer adressiert 
sein [30][31]. Vorfahrt gewähren für Fußgänger soll für die nachfolgen- 
den Kapitel als eine Botschaft an Fußgänger definiert werden, bei der 
das Fahrzeug dem Fußgänger die Vorfahrt bzw. den Vorrang gewährt. 


In dieser Arbeit werden daher v.a. die Nachrichten „das Fahrzeug be- 
findet sich in einem automatisierten Fahrmodus”, „das Fahrzeug hat 
einen Fußgänger erkannt“, „das Fahrzeug lässt einen Fußgänger über- 
queren” und „das Fahrzeug empfiehlt die Straße nicht zu überqueren” 
betrachtet. Diese Nachrichten werden benötigt, wenn ein Fußgänger die 
Straße überqueren möchte und sich gleichzeitig ein Fahrzeug nähert. 
Eine beispielhafte Situation kann ein Zebrastreifen oder ein anderer 
Fußgängerüberweg sein. 


Anforderung an die Verständlichkeit und Aussagekraft von Zeichen 


Um eine sichere Fahrzeug-Fußgänger-Kommunikation entwickeln zu 
können, müssen Anforderungen an die dafür verwendeten Zeichen ge- 
stellt werden. Diese unterscheiden sich neben ihrem Design auch in 
Aussagekraft (meaningfulness) und Verständlichkeit (understandabi- 
lity) [155][156]. Um diese Metriken zu untersuchen und zu bewerten, 
können Probandenstudien durchgeführt werden, welche als Indikator 
dienen, wie gut die Zeichen im Straßenverkehr verstanden werden. Die 
Erkennungsrate (ER) gibt in diesem Zusammenhang das Verhältnis zwi- 
schen der Anzahl der korrekten Antworten N; und der Gesamtzahl 
der Bewertungen N, an [104]. Die Erkennungsrate kann ähnlich dem 
Genauigkeitsmaß Accuracy (siehe Gleichung 2.3) nach folgender Berech- 
nungsvorschrift bestimmt werden [44]: 

_ Nk 


ER= 
Na 


(4.1) 
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Tijus et al. verweisen in [21] auf die Norm ISO 9186-1989, nach der 
Symbole genau dann verständlich sind, wenn mindestens 67% der 
befragten Personen das Zeichen voll oder zumindest teilweise richtig 
interpretieren. Deshalb soll die Erkennungsrate aller Zeichen für die 
Fahrzeug-Fußgänger-Kommunikation dieses Kriterium erfüllen. In der 
exploratorischen Forschung, die sich u.a. damit beschäftigt, wie aussa- 
gekräftig Symbole sind oder mit welcher Selbstsicherheit Probanden 
diese bewerten, ist es ausreichend, wenn die Bewertungen der Zeichen 
durchschnittlich in der besseren Hälfte der Bewertungsskala liegen. Die- 
se Festlegung ist an die psychophysische Schwellenmessung nach Bortz 
und Döring angelehnt, bei welcher ein Proband mindestens 50 % der 
Reize korrekt benennen muss [157]. Diese Anforderung soll deshalb v.a. 
für die Aussagekraft der Zeichen erfüllt werden. 


Die Anforderungen an die Verständlichkeit und Aussagekraft von Zei- 
chen muss v.a. wegen den potentiell negativen Auswirkungen einer 
falsch verstandenen Kommunikation im Straßenverkehr (siehe Kapitel 
3.1) kritisch hinterfragt werden. So ist in der ANSI Z535, 1987 Norm eine 
minimale Erkennungsrate von 85% definiert, welche um 18% höher 
liegt als die Schwelle der oben genannten ISO Norm. Der Definition 
in der ANSI Z535 folgend kann die oben aufgestellte Anforderung zur 
Folge haben, dass trotz Erfüllen der Anforderung der ISO Norm, die am 
Fahrzeug angezeigten Zeichen nicht ausreichend verständlich für eine 
Kommunikation im Straßenverkehr sind und dass das Vertrauen in die 
Kommunikationspartner sinkt bzw. der angestrebte Sicherheitsgewinn 
nicht erreicht wird. 
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4.2 Voruntersuchung zur Intuitivität von 
Zeichen und Dynamiken 


Eine Voruntersuchung zur Intuitivität von Symbolen und Dynamiken 
für eine Fahrzeug-Fußgänger-Kommunikation über Displays und Leuch- 
tenarrays soll in einer Probandenstudie durchgeführt werden. Ziel dieses 
exploratorischen Ansatzes ist es, verschiedene Zeichen unterschiedli- 
cher Komplexität und Dynamik bzgl. deren Verständlichkeit und Er- 
kennungszeiten zu evaluieren. Damit soll eine Vorauswahl der Zeichen 
für die Kommunikation automatisierter Fahrzeuge zur weiteren Un- 
tersuchung in einer Onlinestudie (siehe Kapitel 4.3) getroffen werden 
bzw. welche gemeinsamen Merkmale verständliche und aussagekräftige 
Symbole aufweisen. 


Die nachfolgend vorgestellten Ergebnisse beruhen teilweise auf drei 
Veröffentlichungen [104][158][159], die im Rahmen dieser Arbeit erstellt 


wurden. 


4.2.1 Aufbau der Voruntersuchung 


Für die Voruntersuchung verschiedener Zeichen einer Fahrzeug- 
Fußgänger-Kommunikation werden neben Symbolen auch abstraktere 
Zeichen untersucht (siehe Abbildung 4.1). Dies sind Zeichen oder stark 
vereinfachte Symbole, welche in ein- und zweidimensionalen Leuch- 
tenarrays ohne stilistischen Bezug zu physischen Objekten dargestellt 
werden können (vgl. z.B. Symbole 2, 3,5 in Abbildung 4.1). Es werden 
sowohl statische als auch dynamische Zeichen evaluiert, z.B. sequentiel- 
les Aufbauen eines Symbols oder ein lineares Verschieben und Drehen 
der Zeichen (siehe blaue Pfeile in Abbildung 4.1), da bewegte Zeichen 
nach [3] und [107] mehr Aufmerksamkeit auf sich ziehen als unbewegte. 
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Die Zeichen, die speziell für ein- und zweidimensionale Leuchtenarrays 
entwickelt werden, setzen sich aus einer oder mehreren rechteckigen 
Formen zusammen, z.B. Symbol 2, 4 oder 5. Die ausgewählten Symbole 
bestehen aus bekannten Zeichen aus dem Straßenverkehr (z.B. Symbol 
18 oder 27), aus Icons aus dem Fahrzeuginnenraum abgeleiteter Darstel- 
lungen (z.B. Symbol 9 oder 20), stilisierten Verkehrszeichen (z.B. Symbol 
10 oder 23) oder Kombination dieser (z.B. Symbol 6 oder 20). Neben 
Zeichen, die eindeutig für eine Fahrzeug-Fußgänger-Kommunikation 
an Fußgängerüberwegen ausgewählt werden (z.B. Symbol 18 oder 27), 
finden sich, wie im realen Straßenverkehr auch, Zeichen in der Auswahl, 
welche die Probanden ablenken können und eine andere Nachricht 
visualisieren (z.B. Symbol 7 oder 29). Alle Zeichen werden nach Mög- 
lichkeit nach den Leitlinien für eine verständliche und aussagekräftige 
Gestaltung von Zeichen und Symbolen erstellt bzw. ausgewählt (vgl. 
Kapitel 2.1). Außerdem werden alle Zeichen achromatisch, d.h. weiß 
auf dunklem Hintergrund und ohne Farben, dargestellt, um in dieser 
Voruntersuchung weniger abhängige Variablen gleichzeitig zu evalu- 
ieren. In Kapitel 4.3 wird im Rahmen einer Onlinestudie die Farbe als 
weitere Variation der lichtbasierten Kommunikation im Straßenverkehr 
untersucht. 


Die im Lichtassistenzzentrum der AUDI AG durchgeführte Probanden- 
studie gliedert sich in vier Hauptteile und dauert max. 45 Minuten. Zu 
Beginn wird jeder der 35 Teilnehmer (vgl. Kapitel 4.2.2) einzeln in die 
Studie eingewiesen, der Ablauf erklärt und offene Fragen beantwor- 
tet. Außerdem werden demographische Daten wie Alter, Sehfähigkeit, 
Geschlecht und Regelmäßigkeit der Teilnahme am Straßenverkehr auf- 
genommen. Die Probanden werden gebeten, sich während der gesamten 
Studie vorzustellen, die dargebotenen Zeichen im Straßenverkehr an- 
zutreffen. Alle Antworten und Anmerkungen werden während der 
gesamten Untersuchung durch den Versuchsleiter dokumentiert. Das 
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Abbildung 4.1: In der Voruntersuchung evaluierte Zeichen [104] 


Studiendesign ist an die Arbeiten von Merten [3] sowie Lagström und 
Lundgren [30] angelehnt. 


Für die ersten beiden Teile der Studie steht der Proband in 10 m Abstand 
zu einem Versuchsfahrzeug, an dessen Front zwei Displays mit den Ab- 
messungen 30 cm x 23 cm unterhalb der Scheinwerfer angebracht sind. 
Die Studienteilnehmer werden aufgefordert, die auf beiden Displays 
gezeigten Zeichen zu betrachten und Ihnen eine Bedeutung zuzuord- 
nen, bevor sie mit dem nächsten Symbol fortfahren. Um die Zeit für 
das Deuten der Zeichen zu messen, kann jeder Teilnehmer über eine 
Fernbedienung selbst zur nächsten Darstellung wechseln. Zwischen 
den verschiedenen Symbolen sind eindeutig gekennzeichnete Pausen, 
in denen der Proband seine Interpretation der Bedeutung beschreiben 


w 


ann. 


Der Ablauf im ersten und zweiten Teil der Studie unterscheidet sich nur 
wenig. Im ersten Teil hat jeder Proband maximal 10 s für das freie Deuten 
ohne vorgegebene Antworten, wobei im zweiten Teil für die Wahl aus 
sieben vorgegebenen Antwortmöglichkeiten maximal 5 s zur Verfügung 
stehen. Diese maximalen Antwortzeitdauern der Probanden wurden 
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in einer Expertengruppe vor der Durchführung der Voruntersuchung 
festgelegt. Die vorgegebenen Antworten sind (1) „Fahrzeug steht”, (2) 
„Fahrzeug beschleunigt“, (3) „Fahrzeug bremst”, (4) „Fahrzeug biegt ab”, 
(5) „Fahrzeug hat Fußgänger erkannt“, (6) „Fußgänger darf gehen” und 
(7) „Fußgänger sollte/muss stehen bleiben“. Kann der Proband dem 
gezeigten Zeichen keine dieser Antworten zuordnen, so wird nach 5s 
ohne Antwort mit dem nächsten Zeichen fortgefahren. Im zweiten Ab- 
schnitt der Studie finden zwei Messwiederholungen mit vorgegebenen 
Antworten statt. Den Teilnehmern werden alle Zeichen in einer einmalig 
randomisierten Reihenfolge dargeboten. 


Im dritten Teil der Studie werden den Probanden alle Zeichen auf einem 
Notebook gezeigt und jeweils die folgenden drei Aussagen genannt: 
„Das gezeigte Symbol empfinde ich als aussagekräftig oder intuitiv“, 
„Das gezeigte Symbol ist gut zu erkennen“ und „Ich verstehe, dass das 
Fahrzeug mit mir kommuniziert”. Diese werden von den Probanden 
subjektiv auf einer sechsstufigen Likert-Skala bewertet, welche mit ihrer 
äquidistanten Skaleneinteilung generell für die Evaluation der Zustim- 
mung von Probanden zu einer bestimmten Frage gewählt wird [160]. 
Durch die Verwendung der sechs Stufen „1: trifft voll und ganz zu“ bis 
„6: trifft überhaupt nicht zu” wird die Tendenz zur Mitte vermieden. Eine 
feinere Abstufung bringt nach Jonkisz et al. keinen Informationsgewinn 
[161]. 


Im vierten Hauptteil der Probandenstudie werden den Probanden wie 
in Teil drei alle Symbole gezeigt und über Ja-/Nein-Fragen nochmals 
die Bedeutung der Zeichen abgefragt. Zu jedem Symbol soll der Pro- 
band entscheiden, ob Bedeutung (1) bis (7) dem Zeichen zugeordnet 
werden kann. Dafür muss er zu jedem Zeichen sieben Ja-/Nein-Fragen 
beantworten. Die Teilnehmer haben dabei auch stets die Möglichkeit 
„Ich weiß nicht” als Antwort zu geben. 
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4.2.2 Auswertung und Diskussion der Ergebnisse aus der 
Voruntersuchung 


Insgesamt nehmen 35 Personen mit einem Durchschnittsalter von 
28,2 Jahren (Standardabweichung: 8, 6 Jahre; Median: 26 Jahre) teil. Die 
vier weiblichen und 31 männlichen Probanden besitzen eine normale 
oder korrigierte Sehfähigkeit, wobei zwei Teilnehmer eine geringe Kurz- 
sichtigkeit aufweisen (—0,25 dpt und —0,5dpt). Zwei der männlichen 
Probanden haben außerdem eine Farbfehlsichtigkeit (Deuteranopie 
bzw. Protanopie), was für die Versuchsdurchführung aufgrund der 
achromatischen Darstellung keinen Einfluss auf die Ergebnisse hat. 33 
Teilnehmer (ca. 94,3%) geben an häufig (mehr als viermal pro Woche) 
oder gelegentlich (mehr als einmal pro Woche) selbst ein Kraftfahrzeug 
zu führen. Die vom Hersteller der Displays angegebene Leuchtdichte 
von 315 cdm~? wird von allen Probanden als ausreichend hell bewertet. 
Aus den ersten beiden Teilen der Studie werden für die freien und vorge- 
gebenen Antworten die Erkennungsraten nach Gleichung 4.1 bestimmt 
(siehe Anhang A.1, Abbildung A.1). Als korrekte Bedeutung der Zeichen 
wird das Ergebnis aus dem Mehrheitsvotum der Antworten aus Teil 
zwei der Studie verwendet, um eine möglicherweise falsche Interpre- 
tation des Versuchsleiters auszuschließen. Die Erkennungsraten der elf 
Zeichen, welche die in der Norm ISO 9186-1989 definierten Schwelle von 
67 % übertreffen (siehe Kapitel 4.1), sind in Abbildung 4.2 dargestellt. 
Lediglich das Symbol 27 erfüllt diese Bedingung sowohl für die freien 
(74,3%) als auch für die vorgegebenen Antworten (98,1%) und kann 
damit als intuitiv und verständlich bezeichnet werden. Die anderen 
Zeichen erreichen Erkennungsraten zwischen 8,6% und 57,1% für die 
freien und 73,3 % bis 88, 6 % für die vorgegebenen Antworten. 


Die Ergebnisse der Erkennungsraten im ersten und zweiten Teil der Vor- 
untersuchung zeigen, dass auch im Straßenverkehr etablierte Symbole 
(z.B. Symbol 18), ohne die sonst typische Farbe, in dem ungewohnten 
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Abbildung 4.2: Mittlere Erkennungsraten ausgewählter Symbole für freie und vorgegebe- 
ne Antwortmöglichkeiten 


1 


Anzeigekonzept nicht intuitiv gedeutet werden können. Dies stimmt 
mit den Ergebnissen von Tijus et al. [21] und Dewar [24] überein. Au- 
ßerdem bestätigen Ergebnisse von Othersen et al. [19], Krieft et al. [162] 
und Budanow et al. [29], dass v.a. einfache, unbekannte Zeichen nicht 
intuitiv erkannt werden. Die hohen Erkennungsraten im zweiten Haupt- 
teil der Probandenstudie weisen darauf hin, dass die Bedeutung der 
Zeichen gelernt und damit die Verständlichkeit gesteigert werden kann 
(siehe auch Kapitel 2.1.1). Dies ist ähnlich der zukünftigen Situation im 
Straßenverkehr, in welcher Fußgänger und andere Verkehrsteilnehmer 
lediglich eine begrenzte Anzahl von Möglichkeiten des weiteren Situa- 
tionsverlaufs vermuten müssen und sich zwischen diesen entscheiden 
können. 


Bei den freien Antworten im ersten Teil der Studie werden in insgesamt 
77,4% falsche Deutungen der Zeichen wiedergegeben, welche sich zwi- 
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schen den Probanden teilweise erheblich unterscheiden. Insbesondere 
die Deutung vertikaler Dynamiken fällt den Teilnehmern schwer. Diese 
werden fast genauso häufig konträr als „Fahrzeug beschleunigt” und 
„Fahrzeug bremst” interpretiert, wie sie richtig gedeutet werden. Die 
Probanden vermuten in manchen Fällen widersprüchliche Adressaten 
der Kommunikation, z.B. „ein sich annäherndes Fahrzeug soll stoppen” 
und „ich bzw. Fußgänger soll stoppen“ (bspw. bei Symbole 6 oder 23). 
Besonders bei abstrakten Symbolen oder Zeichen linearer Leuchtenar- 
rays können die Probanden, in der Zeit in der dieses Zeichen angezeigt 
wird, keine Bedeutung oder eine mögliche Verkehrssituationen nennen. 


Diese Ergebnisse decken sich weitgehend mit der Bewertung der Aussa- 
gekraft der Zeichen in Teil drei. Für die Zeichen, welche die geforderte 
Erkennungsrate von 67 % erreichen (siehe Abbildung 4.2), ergeben sich 
die in Tabelle 4.1 aufgeführten mittleren Bewertungen der Aussagekraft. 
Die Bewertungen von insgesamt 18 Zeichen liegen in der besseren Hälf- 
te der Likert-Skala und erfüllen damit das in Kapitel 4.1 beschriebene 
Kriterium für die Verständlichkeit von Zeichen zur Fahrzeug-Fußgänger- 
Kommunikation. Am aussagekräftigsten ist das Symbol 27 mit einem 
Mittelwert von 1,1, gefolgt von dem aus dem Straßenverkehr bekannten 
Symbol 18 und einem dynamischen Richtungspfeil (Zeichen 21) mit 
einer Bewertung von 1, 9. 


Tabelle 4.1: 
Durchschnittliche Bewertung der Aussagekraft ausgewählter Symbole 


Symbol 3 4 5 10 16 18 20 21 26 27 30 
Bewertung 3,1 3,3 2,3 2,2 2,1 1,9 2,1 1,9 2,1 1,1 2,4 


Aus den Antworten der Ja-/Nein-Fragen im vierten Hauptteil der Vor- 
untersuchung lassen sich ebenfalls Erkennungsraten bestimmen. Im Ge- 
gensatz zu Teil zwei werden hier die Zeichen mit Hilfe eines Notebooks 
in einer Arbeitsplatzumgebung dargestellt. Die daraus resultierenden Er- 
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kennungsraten unterscheiden sich kaum von denen der im zweiten Teil 
der Studie ermittelten. Im zweiten Teil der Studie sollten die Probanden 
am Fahrzeug dargestellte Zeichen in einem realistischeren Versuchsauf- 
bau deuten. Trotzdem ergibt sich ein eindeutig linearen Zusammenhang 
durch Berechnung des Korrelationskoeffizienten r = 0,967 zwischen 
den Erkennungsraten im Teil zwei ER und vier ER, [160]: 

cov(ER>, ER4) 


r= HERJER) a 


mit der Kovarianz der beiden Erkennungsraten 


ENZ (ER2; — ER2)(ER4; — ER4) 


cov(ER2,ER4) = wel 


(4.3) 


wobei o(ER2) und o(ER4) die Standardabweichungen der Erkennungs- 
raten, ER, und ER; die Mittelwerte der Erkennungsraten und Nz = 30 
die Anzahl der Zeichen angeben [160]. Dies weist für zukünftige Unter- 
suchungen darauf hin, dass der Versuchsaufbau kaum Einfluss auf die 
Deutung der Zeichen hat und Studien mit Hilfe von Notebooks und in 
einer Arbeitsplatzumgebungen durchgeführt werden können. 


In Teil eins der Studie werden die Zeichen im Durchschnitt in 6, 64s 
(Standardabweichung: 1,57 s; Median: 6,83 s) intuitiv gedeutet, wobei 
Symbol 27 mit durchschnittlich 2,72 s die kürzeste Erkennungszeit auf- 
weist und das Zeichen 25 von 30 Probanden überhaupt nicht erkannt 
wird. Für letzteres ergibt sich deshalb eine Zeit von 9,27s. Die Zei- 
ten für die Deutung der Zeichen mit vorgegebenen Antworten beträgt 
durchschnittlich 2, 88 s (Standardabweichung: 0,755; Median: 2,845). 
Die schnellste durchschnittliche Zuordnung erfolgt wieder bei Symbol 
27 und beträgt 1,49 s, die längste mittlere Dauer wird bei Zeichen 25 mit 
4,43 s gemessen. In den Fällen, in denen die Probanden keine Antwort 
in der maximal vorgegebenen Zeit geben können, wird diese (10s bzw. 
5s) als Antwortzeit gewertet. 
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Dies zeigt, dass die Zeit, welche benötigt wird, um ein Zeichen zu deuten, 
bei vorgegebenen Antworten wesentlich niedriger ausfällt als für freie 
Antworten. In beiden Fällen ist die durchschnittliche Zeit jedoch sehr 
hoch, besonders im Hinblick auf schnelle Entscheidungen, die häufig im 
Straßenverkehr notwendig sind. Der Vergleich des durchschnittlichen 
Wertes der Erkennungszeit mit dem des intuitiven Symbols 27 zeigt, 
dass ein verständliches Zeichendesign unbedingt notwendig ist und 
die Intuitivität der Zeichen eine entscheidende Rolle spielt. Auch hier 
ist wegen der um den Faktor 2,3 besseren Ergebnisse in Teil zwei der 
Studie davon auszugehen, dass eine hohe Intuitivität oder vielmehr das 
Lernen der Zeichen unbedingt notwendig sind. 


Für weitere Untersuchungen und für zukünftige Kommunikationskon- 
zepte sind vor allem Symbole 18 und 20 relevant (siehe Abbildung 
4.3). Das Symbol 18 ist das mit der höchsten Erkennungsrate für die 
Bedeutung „Fußgänger darf gehen”. Dieses Zeichen ist intuitiv nicht 
verständlich, aber bei vorgegebenen Antworten erfüllt es die in Kapitel 
4.1 genannte Anforderungen der Norm ISO 9186-1989. Gleiches gilt für 
Symbol 20 mit der Nachricht „Fahrzeug hat Fußgänger erkannt“. Dieses 
Zeichen wird von Probanden, möglicherweise wegen der Darstellung 
eines Fahrzeugs als Bestandteil des Symbols, bei den freien Antwor- 
ten zuverlässiger richtig gedeutet als die Symbole 16 und 26. Für diese 
beiden wird als Falschantwort mehrmals „WLAN für Fußgänger” ge- 
nannt, während Zeichen 20 durch den Fahrzeugbezug zu 57,1% sinnvoll 
interpretiert wird. Symbol 27 erfüllt die in Kapitel 4.1 aufgestellten An- 
forderungen an Zeichen zur Fahrzeug-Fußgänger-Kommunikation und 
kann daher in ein Kommunikationskonzept integriert werden. Dieses 
Zeichen kann alternativ durch eine implizite Kommunikation eines nicht 
vorhandenen Symbols ersetzt werden (siehe Kapitel 4.1). Außerdem zei- 
gen die Ergebnisse, insbesondere die Verständlichkeit der Linien- und 
Rechtecksymbole, deutlich, dass eine Kommunikation automatisierter 
Fahrzeug nicht über eindimensionale Leuchtenarrays erfolgen sollte. 
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Abbildung 4.3: Ausgewählte Symbole für weitere Untersuchungen und Kommunikati- 
onskonzepte, nach [104] 


4.3 Untersuchung der unterstützenden Wirkung 
von Farben auf die Verständlichkeit von 
Symbolen 


Im vorausgehenden Kapitel 4.2 wird eine Probandenstudie zur Untersu- 
chung der Intuitivität von weißen Zeichen und Dynamiken beschrieben. 
Die beiden wichtigsten Ergebnisse sind, dass Symbole verständlicher 
und aussagekräftiger sind als abstrakte Zeichen, z.B. für eindimensionale 
Leuchtenarrays, diese aber trotzdem nicht intuitiv interpretiert werden 
können. Lediglich Symbol 27 ist intuitiv verständlich. 


Deshalb wird im Rahmen dieses Kapitels eine Untersuchung beschrie- 
ben, welche die unterstützende Wirkung von Farben auf die Verständ- 
lichkeit von Symbolen evaluiert. Dazu werden bereits in der Voruntersu- 
chung ausgewählte Zeichen (siehe Kapitel 4.2) durch weitere Symbole 
ergänzt und als Bewertungsbasis nochmals bzgl. deren Verständlichkeit 
und Aussagekraft untersucht. Anschließend werden die Zeichen mit 
verschiedenen Farben kombiniert, um die unterstützende Wirkung für 
eine Fahrzeug-Fußgänger-Kommunikation abzutesten. 


Die in diesem Kapitel vorgestellten Ergebnisse beruhen teilweise auf 
den Veröffentlichungen von Marichalar Quezada und Auburger [163] 
sowie Reschke et al. [35][105][164][165], die im Rahmen dieser Arbeit 
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entstanden. Aufbau und Durchführung der Onlinestudie erfolgten im 
Rahmen der Projektarbeit von Marichalar Quezada und Auburger. 


4.3.1 Vorbereitung der Onlinestudie 


Die Untersuchung der unterstützenden Wirkung von Farben auf die 
Verständlichkeit von Symbolen wird mit Hilfe einer Onlinestudie durch- 
geführt. Durch den Einsatz von Onlinestudien ist es möglich, große 
und diverse Stichproben zu erhalten, sowie auf einen internationalen 
Probandenpool zugreifen zu können. Diese Art der Probandenakqui- 
sition ist v.a. im Bereich der Psychologie und Sozialwissenschaften an- 
zutreffen und hat sich z.B. bei Fridman et al. zur Untersuchung einer 
Fahrzeug-Fußgänger-Kommunikation bewährt [28]. Wie in Kapitel 4.2.2 
beschrieben, ist die Untersuchung der Verständlichkeit von Zeichen an 
PCs vergleichbar mit der Evaluation realistischer Versuchsaufbauten. 


Die Onlinestudie untersucht die Intuitivität und Verständlichkeit von 
Farben und Symbolen zur visuellen Kennzeichnung eines automatisier- 
ten Fahrmodus (Automated Driving, AD), Darstellung des Vorfahrt- 
gewährens für Fußgänger (Crossing of a Pedestrian, C) und Erkennen 
eines Fußgängers (Detection, D). Othersen et al. empfehlen, für unkriti- 
sche Situationen Ich-Botschaften und für kritische Situationen Auffor- 
derungen einzusetzen [19]. Dieser Empfehlung folgt die Formulierung 
der Bedeutung der ausgewählten Symbole. So ist der Fahrmodus un- 
kritisch und wird daher als Information über das Fahrzeug formuliert. 
Ein Vorfahrt gewähren mit direkter Adressierung des Fußgängers ist 
eher kritisch und wird daher als Aufforderung umgesetzt, während das 
Erkennen des Fußgängers neutral formuliert ist. 
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Symbolauswahl 


Für jede der drei ausgewählten Nachrichten werden jeweils drei Symbo- 
le ausgewählt und in der Onlinestudie untersucht (siehe Abbildung 4.4). 


„Automatisiertes Fahren“ „Vorfahrt Gewähren“ „Erkennen eines Fußgängers“ 


Weiß 


Grün 


Gelb 


Türkis 


Blau 


Magenta 


Abbildung 4.4: Symbole und Farben für die Onlinestudie [105] 


Der automatisierte Fahrmodus wird wahlweise mittels des Audi- 
spezifischen „Audi-AI” Logos (Audi Intelligence, AD1), eines Symbols 
fiir ein intelligentes Fahrzeug (AD2) oder mittels eines stilisiert darge- 
stellten Lenkrads mit Händen, die das Lenkrad nicht berühren (AD3), 
dargestellt. Das Audi-AI Logo wird für Show- und Konzeptfahrzeuge 
der AUDI AG als Markenname eingesetzt, um deren automatisierte und 
intelligente Fahrfunktionen hervorzuheben und eignet sich daher als 
etabliertes Markenzeichen [166]. Das Symbol AD2 stellt ein Fahrzeug 
mit abstrakten Schaltungs- bzw. Platinenlayout dar und soll damit die 
Verbindung zur hochtechnologischen, automatisierten Fahrfunktion des 
Fahrzeugs schaffen. Dies ist an das Konzept von Hyundai angelehnt, 
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bei dem ein grünes Blatt eine Metapher für neue Antriebstechnologien 
ist, wie z.B. Flüssiggas- oder Hybridantriebe [167]. Mit dem Symbol 
AD3 wird der automatisierte Fahrmodus dargestellt, wobei das Fahr- 
zeug ohne manuellen Eingriff des Fahrers sicher am Straßenverkehr 
teilnimmt. 


Ein Vorfahrt gewähren für einen Fußgänger wird mit dem aus der Vor- 
untersuchung bekannten Symbol C3 dargestellt. Alternativ wird eine 
Abwandlung des Zeichens mit einem ergänzten Zebrastreifen (C2) ge- 
testet, wodurch eine noch genauere Situationsdarstellung erfolgt. Die 
Symbole C2 und C3 sind bereits vom Verkehrsschild „Fußgängerüber- 
weg“ und von Fußgängerampeln bekannt [92][153]. Das Symbol C1 
zeigt mit zwei entgegengesetzten Pfeilen etwas abstrakter, dass Fuß- 
gänger von beiden Seiten die Straße überqueren dürfen und ähnelt den 
Symbolen 10 und 21 aus der Voruntersuchung (siehe Abbildung 4.1). 


Die Darstellung zur Erkennung von Fußgängern erfolgt über dynami- 
sche Symbole und besteht aus vier sequenziellen Bildern (siehe Tabelle 
4.2), um mehr Aufmerksamkeit zu erwecken (vgl. Budanow et al. [29]) 
sowie die fortlaufende Detektion neuer Fußgänger zu visualisieren. Sym- 
bol D1 ist das in der Voruntersuchung ausgewählte Zeichen 20. Symbole 
D2 und D3 stellen drei größer werdende Ringe jeweils unter einem Fahr- 
zeug dar, welche das Aussenden von Wellen und die zugrundeliegende 
Fahrzeugsensorik visualisieren sollen. Die Darstellung ist bspw. der 
Ultraschallsensorik eines Parkassistenten nachempfunden [168]. 


Farbauswahl 


Farben sind im täglichen Leben omnipräsent und werden mit bestimm- 
ten Bedeutungen assoziiert [102]. Deshalb werden für diese Untersu- 
chung sechs verschiedene Farben ausgewählt, welche die Verständlich- 
keit der oben bestimmten Symbole verstärken sollen. Weiß soll als Be- 
wertungsgrundlage verwendet werden, weil sie nach der Norm ISO 2575 
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Tabelle 4.2: 
Sequentielle Darstellung der dynamischen Symbole für das Erkennen eines Fußgängers, 
nach [163] 


Symbol Sequenz 1 Sequenz 2 Sequenz 3 Sequenz 4 


D1 


D2 


D3 


eine Standardfarbe fiir Zeichen darstellt [27] und da bereits in der Vorun- 
tersuchung weiße Zeichen eingesetzt wurden. Weiß wird außerdem in 
vielen weiteren Studien zur Kommunikation automatisierter Fahrzeuge 
eingesetzt, z.B. von Othersen et al. und Clamann et al. [19][153]. Zuletzt 
wird Weiß bereits im heutigen Straßenverkehr für Leuchten in der Fahr- 
zeugfront eingesetzt, z.B. Tagfahrlichter oder Positionsleuchten [33]. Die 
Primärfarbe Grün findet bereits im Straßenverkehr für Ampelanlagen 
Verwendung und zeigt nach der Norm ISO 2575 einen normalen, siche- 
ren Betriebszustand an [27]. Außerdem wird diese Farbe in verschiede- 
nen Studien zur Fahrzeug-Fußgänger-Kommunikation eingesetzt und in 
der Arbeit von Willrodt et al. für das Erkennen eines Fahrradfahrers und 
Vorfahrt gewähren durch das Fahrzeug am besten bewertet [28][169]. 
Als weitere Farbe für die Kommunikation automatisierter Fahrzeuge 
wird Blau untersucht, da es mit ca. 80° eine sehr hohe periphere Sicht- 
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barkeit besitzt und damit für die Kommunikation im Straßenverkehr 
besonders geeignet ist [102]. Auch in der Untersuchung von Willrodt et 
al. wird Blau ähnlich gut bewertet wie Weiß [169]. Deshalb sollen neben 
Weiß die Primärfarben Grün und Blau untersucht werden. Auf Rot wird 
ausdrücklich verzichtet, da diese Farbe in der Fahrzeugbeleuchtung 
aktuell ausschließlich als Schlusslicht eingesetzt wird. Außerdem wird 
Rot zur Unterstützung von Warn- und Verbotszeichen verwendet, z.B. 
wenn Personen oder Betriebsmittel unmittelbar gefährdet sind [27][102]. 
Weil keines der untersuchten Symbole eine Warnung oder ein Verbot 
darstellt und der Warncharakter bestehender Warn- und Verbotszeichen 
nicht beeinträchtigt werden soll, wird auch aus diesen Gründen auf die 
Verwendung von Rot ausdrücklich verzichtet. 


In der Onlinestudie werden zusätzlich die Sekundärfarben Türkis (Blau- 
Grün oder Cyan), Gelb und Magenta evaluiert. Besonders Türkis und 
Magenta sind von im Straßenverkehr verwendeten Farben gut zu un- 
terscheiden [102]. Deshalb empfiehlt auch der SAE Standard J3134 die 
Verwendung blau-grüner Leuchten, um anzuzeigen, dass sich ein Fahr- 
zeug im automatisierten Fahrmodus befindet [31]. Magenta wird in 
einer Untersuchung von Beggiato et al. sehr gut im Bezug auf dessen 
Sichtbarkeit im Straßenverkehr bewertet [170]. Gelbe Zeichen sind in der 
Norm ISO 2575 für Achtungszeichen vorgesehen [27] und werden auch 
in anderen Studien zur Fahrzeug-Fußgänger-Kommunikation automati- 
sierter Fahrzeuge eingesetzt [28][171]. Alle Symbole dieser Onlinestudie 
sind in Abbildung 4.4 in den sechs ausgewählten Farben dargestellt. 


Untersuchung der Bildschirmfarbwiedergabe 


Vor der Durchführung einer Onlinestudie zur unterstützenden Wirkung 
von Farben auf die Verständlichkeit von Symbolen soll sichergestellt wer- 
den, dass die Darstellung der Farben für unterschiedliche Bildschirme 
gleich oder zumindest sehr ähnlich erfolgt. Dies ist notwendig, um die 
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Wahrnehmung unterschiedlicher Farben bei konstanten Farbwerten zu 
verhindern. Dazu werden 21 Bildschirme mit Hilfe eines Kolorimeters 
(UPRtek MK350S) bzgl. deren Farbwiedergabe vermessen. Für die Mes- 
sung wird an den Displays jeweils eine Primärfarbe (Rot, Grün, Blau) 
sowie Weiß nacheinander dargestellt und damit deren xy-Koordinaten 
bestimmt [26]. Die Messgenauigkeit des hierfür verwendeten Kolori- 


meters kann mit der angegebenen Toleranz von +0, 0025 vernachläs- 
sigt werden. Die Sekundärfarben (Cyan, Magenta, Gelb) werden aus 
den gemessenen Primärfarben und Weiß berechnet. Die so bestimmten 
Farbwerte, deren Standardabweichung sowie der daraus resultierende 
Gamut sind in Abbildung 4.5 in gelb dargestellt, der sRGB-Farbraum 
in schwarz. Der Gamut umfasst dabei alle von einem Wiedergabegerät 
darstellbaren Farben [26]. 


In Abbildung 4.5 sind außerdem die ungefähr zu unterscheidenden Farb- 
namen nach Fortner und Meyer dargestellt [173]. Aus der Messung der 
Primärfarben und Weiß, ergeben sich die Farbnamen nach Fortner und 
Meyer zu Weiß, Rötlich-Orange, Gelblich-Grün und Lilafarbenes-Blau. 
Weiß, Gelblich-Grün und Lilafarbenes-Blau liegen mit ihrer Standard- 
abweichung ausschließlich in einem Farbbereich, während das Rötlich- 
Orange auch als Rot wahrgenommen werden kann. Die berechneten 
Sekundärfarben sind Blau-Grün, Gelb-Grün und Rötlich-Lila, können in- 
nerhalb der Standardabweichung aber auch als Grünlich-Blau, Bläulich- 
Grün, Weiß, Grünlich-Gelb, Rot oder Lila bezeichnet werden. Wegen 
der nahen Verwandtschaft der verwendeten Farben mit den angren- 
zenden Farbbereichen wird davon ausgegangen, dass die Probanden 
an ihren Heimgeräten sehr ähnliche Farben sehen. Im weiteren Verlauf 
dieser Arbeit werden zur leichteren Lesbarkeit, wie auch schon in den 
Abschnitten zuvor, die vereinfachten Farbnamen, statt derer von Fortner 
und Meyer, verwendet. 
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Abbildung 4.5: Normfarbtafel nach Westland [172] mit Farbnamen nach Fortner und 
Meyer [173] 


4.3.2 Aufbau der Onlinestudie 


Die Onlinestudie wird auf zwei Plattformen, Amazon Mechanical Turk 
(MTurk) und Prolific, nordamerikanischen und westeuropäischen Pro- 
bandenpools zur Verfügung gestellt [174][175]. Um eine möglichst breite 
Stichprobe zu erzielen, sollen jeweils 400 Probanden akquiriert wer- 
den, wobei die registrierten Benutzer von MTurk und Prolific regionale 
Schwerpunkte bilden. Die Onlinestudie wird für eine durchschnittliche 
Bearbeitungsdauer von 25 bis 30 Minuten entwickelt und ist in eng- 
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lischer Sprache gestaltet. Nach einer vollständigen und erfolgreichen 
Studienteilnahme werden die Probanden plattformspezifisch finanzi- 
ell leicht überdurchschnittlich kompensiert, um die Attraktivität der 
Studie zu erhöhen und dadurch möglichst schnell die gewünschte Teil- 
nehmerzahl zu erreichen. Zur Sicherstellung qualitativ hochwertiger 
Antworten ermöglicht MTurk eine Vorauswahl der Probanden über ei- 
ne filternde Teilnehmerzulassung. Angelehnt an Fridman et al. wird 
vorausgesetzt, dass die Probanden mindestens 1000 erfolgreich durch- 
geführte MTurk-Aufgaben (Human Intelligent Tasks) und eine zu 95 % 
positive Bewertung (Review-Rate) aufweisen [28]. Bei Prolific besteht 
die für MTurk beschriebene Möglichkeit nicht, Filter für die Teilnehmer 
zu setzen. Fine hohe Güte der Antworten muss anschließend durch ein 
manuelles Bewerten der ausgefüllten Fragebögen sichergestellt werden. 


Die Onlinestudie besteht aus einer Mischung von Tests zur Aussage- 
kraft, nach McDougall et al. [155], und Verständlichkeit, nach Collins 
und Lerner [156]. Die Struktur der fünf Hauptteile bleibt für jeden Teil- 
nehmer gleich, jedoch wird die Symbol- und Farbreihenfolge für jeden 
Probanden zufällig generiert, um Lern- und Initialisierungseffekte aus- 
zuschließen [160]. 


Als Einführung wird den Probanden im ersten Teil der Ablauf und die 
Dauer der Onlinestudie mitgeteilt. Nach Akzeptieren der Teilnahmebe- 
dingungen und nach Zusage der Probanden, die Onlinestudie an einem 
Desktop-PC durchzuführen, wird das Farbsehen der Probanden getestet. 
Da die Studienteilnehmer im vierten Teil der Studie verschiedenfarbige 
Symbole erkennen und bewerten müssen, wird eine Rot-Grün-Schwäche 
(Deuteranopie bzw. Protanopie) mittels der Ishihara-Farbtafel 8 (Zahl 
15”) ausgeschlossen [176]. Diese ist die häufigste Farbfehlsichtigkeit in 
einer europiden Bevölkerung [102][177]. Der Test des Farbsehens nach 
Ishihara kann nach Hoffmann und Menozzi sowohl in ausgedruckter 
Form, als auch mit Hilfe von Computerdisplays erfolgen [178]. 
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Um die Aufmerksamkeit der Probanden auf den Bereich zu lenken, wel- 
cher im weiteren Verlauf der Onlinestudie für die Anzeige der Symbole 
genutzt wird (vgl. Abbildung 4.7), wird ihnen dieser in einem Beispiel 
mit großen Smileys am Fahrzeug verdeutlicht. Dieses Vorgehen wird 
von Fridman et al. für Onlinestudien empfohlen [28]. Die Darstellung 
der Smileys wird darüber hinaus für zwei Filterfragen eingesetzt, bei 
welchen die Probanden einerseits bestätigen, dass sie das Symbol im 
Bild finden können und andererseits überprüft wird, ob die Teilnehmer 
die Anweisungen in der Studie genau lesen. Ein falsches Auswählen der 
Antworten führt zum Ausschluss aus der Datenerhebung, wodurch die 
Qualität der Studienergebnisse gesteigert wird. 

Allen verbliebenen Probanden wird die in der Onlinestudie zugrunde 
gelegte Verkehrssituation anhand einer Abbildung erläutert (siehe Abbil- 
dung 4.6). Die Studienteilnehmer sollen sich dabei in die Situation eines 
Fußgängers versetzen, der eine zweispurige Straße an einem Fußgänger- 
überweg überqueren möchte. Gleichzeitig nähert sich ein Fahrzeug und 
ein Kreuzen der Fahrzeug- und Fußgängertrajektorie ist zu erwarten. 
Eine Straßenführung mit zwei Fahrbahnen je Richtung, wie sie in Abbil- 
dung 4.6 und Abbildung 4.7 dargestellt ist, kann v.a. in den USA, aber 
auch in Europa angetroffen werden. Beide Abbildungen zeigen damit 
eine für das ausgewählte Probandenkollektiv gewohnte Situation im 
Straßenverkehr. 

Im zweiten Teil der Onlinestudie werden weiße Symbole gezeigt, wel- 
che die Probanden bezüglich deren Aussagekraft und Verständlichkeit 
bewerten. Dabei handelt es sich um eine möglichst realistische Darstel- 
lung einer Verkehrssituation, in welche ein Audi Aicon eingebettet ist 
(siehe Abbildung 4.7). In der gesamten Studie wird diese bearbeitete 
Verkehrsituation verwendet, um die Symbole und Farben darzustellen. 
Die Probanden haben keinerlei Vorwissen zur Bedeutung der Zeichen. 
Sie sollen ähnlich zur Voruntersuchung die Aussagekraft auf einer sechs- 
stufigen Likert-Skala bewerten und eine kurze offene Antwort zur Be- 
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Abbildung 4.6: Situationsbeschreibung des Versuchsaufbaus, nach [165] 


deutung des Symbols eingeben (max. 100 Zeichen). Die Aussagekraft 
wird von ,,1: ich verstehe die Bedeutung tiberhaupt nicht” bis ,,6: ich 
verstehe die Bedeutung voll und ganz” angegeben. Zusatzlich werden 
die Probanden aufgefordert, zu bewerten, wie sicher sie sich mit ihrer 
offenen Antwort sind. Auch bei dieser Bewertung der Konfidenz wird 
die Auswahl tiber eine sechsstufige Likert-Skala von ,,1: ich liege sicher 
falsch“ bis „6: ich liege sicher richtig” getroffen. Mit der Frage wie sicher 
sich die Probanden bei ihrer Aussage sind, kann in der Auswertung ein 
Raten der richtigen Bedeutung ausgeschlossen werden [156]. 


Der dritte Teil der Onlinestudie ist ähnlich dem zweiten Teil und an 
die Voruntersuchung angelehnt. Auch in diesem Abschnitt werden den 
Probanden die Symbole in zufalliger Reihenfolge und anhand des bear- 
beiteten Bilds des Audi Aicons gezeigt. Sie werden aufgefordert, dem 
Symbol eine aus drei vorgegebenen Bedeutungen zuzuordnen und an- 
schließend auszuwählen, wie sicher sie sich mit ihrer Auswahl sind. 
Diese Bewertung der Sicherheit durch die Probanden erfolgt wieder 
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Abbildung 4.7: Audi Aicon mit angezeigtem Symbol C2 [105] 


anhand einer sechsstufigen Skala. Die vorgegebenen Antworten wurden 
für jedes Symbol vor der Studie durch drei Studienleiter ausgewählt, 
um möglichst sinnvolle Falschantworten zu generieren. 


Im vierten Hauptteil wird den Studienteilnehmern nach einem Beispiel- 
bild jeweils ein Symbol in allen Farben gezeigt, welches sie in Bezug 
auf eine vorgegebene Bedeutung bewerten müssen. Die Bedeutungen 
entsprechen den angestrebten Darstellungen für einen automatisierten 
Fahrmodus, Vorfahrt gewähren und Erkennen eines Fußgängers. Die 
Probanden ordnen auch hier mit Hilfe einer sechsstufigen Likert-Skala 
ihre Konfidenz ein, und geben damit an, wie sicher sie sich sind, dass 
die Bedeutung auf das gezeigte Symbol zutrifft (,,1: ich bin überhaupt 
nicht sicher“ bis „6: ich bin sehr sicher”). 
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Im fünften und letzten Teil der Studie werden demographische Daten 
der Probanden erfasst. Diese beinhalten das Alter, Geschlecht und Her- 
kunft. Außerdem wird neben dem Englischniveau (,,War das Englischni- 
veau für Ihre Sprachkenntnisse angemessen?”) und der Lieblingsfarbe 
der Studienteilnehmer nach der jeweils geeignetsten Farbe für die drei 
untersuchten Nachrichten gefragt. Zuletzt wird abgefragt, wie vertraut 
die Probanden mit ähnlichen Situationen im Straßenverkehr sind. 


4.3.3 Auswertung und Diskussion der Onlinestudie 


Nach Anwenden der Filterfragen aus dem ersten Teil der Studie und 
einer manuellen Überprüfung durch drei Personen verbleiben 709 Pro- 
banden im Datensatz. Das händische Überprüfen ist vor allem wegen 
den fehlenden Filtermöglichkeiten bei Prolific notwendig. Die Auftei- 
lung zwischen den Plattformen MTurk (48,2%) und Prolific (51,8%) 
ist nahezu identisch. Die Studienteilnehmer kommen zu großen Tei- 
len aus den USA (46,7%) und dem vereinigten Königreich (51,6%), 
nur vereinzelte Personen sind aus Kanada oder europäischen Staaten. 
61,6% der Probanden sind weiblich, 37,8% männlich und zwei Test- 
personen wollen ihr Geschlecht nicht nennen oder können es keiner 
der Kategorien zuordnen. Der Großteil der Teilnehmer ist mit der ge- 
zeigten Verkehrssituation sehr vertraut und lebt in einer Stadt (30,5%) 
oder Vorstadt (49,5%) und hat selbst eine Fahrerlaubnis für Kraftfahr- 
zeuge (84,5%). Die Altersverteilung in Abbildung 4.8 zeigt, dass trotz 
einer großen Bandbreite hauptsächlich Probanden im Alter zwischen 
20 und 30 (32,4%) bzw. 31 bis 40 (30,3%) Jahren an der Onlinestudie 
teilnehmen. 


Aussagekraft und Verständlichkeit der Symbole 


Die Bewertung der Aussagekraft und Verständlichkeit der Symbole er- 
folgt mittels verschiedener statistischer Methoden. So wird der t-Test an- 
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Abbildung 4.8: Altersverteilung der Probanden in der Onlinestudie, nach [163] 


gewendet um festzustellen, ob ein Mittelwert signifikant unterschiedlich 
zu einem zweiten (Mittel-)Wert ist oder dieser lediglich zufallsbedingt 
höher bzw. niedriger ausfällt. Mit Hilfe eines z-Iests kann mit einer 
bestimmten statistischen Sicherheit gesagt werden, ob ein definierter 
Erwartungswert eingehalten wird oder nicht [160]. Die Auswertung der 
Antworten für den erstmaligen Symbolkontakt erfolgt mittels eines ein- 
seitigen t-Tests für die Aussagekraft und Sicherheit der Antworten sowie 
mittels eines z-Iests für die Erkennungsraten der offenen Antworten. 
Für die Auswertungen werden ein Signifikanzniveau von « < 0,05, ein 
kritischer Wert von 1, 64 und ein Konfidenzintervall von 90 % angesetzt. 
Die Zahl der Freiheitsgrade beträgt für alle Untersuchungen 708, also 
eins weniger als die Anzahl der Probanden [160]. Für die Auswertung 
der Aussagekraft wird für jedes Symbol ein einseitiger t-Test gegen 
den Mittelwert der sechsstufigen Skala (3,5) berechnet (siehe Kapitel 
4.1). Die Ergebnisse in Tabelle 4.3 zeigen eine sehr hohe Signifikanz 
für die Aussagekraft der Symbole C2 (t(708) = 21,05;p < 0,05) und 
C3 (£(708) = 11,05; p < 0,05). Die Pearson-Korrelationskoeffizienten r 
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weisen nach Cohen für das Symbol C3 einen mittleren und für C2 einen 
starken Effekt auf [179]. 


Tabelle 4.3: 
Ergebnisse des einseitigen t-Tests für die Auswertung der Aussagekraft der Symbole, nach 
[163] 


Symbol Mittelwert Standardabw. t r 
Al ADi 1,77 1,18 —39,15 = 
@ ADd2 1,83 1,22 —36,31 = 
8:  AD3 3,28 1,43 4,14 = 
Ss C1 2,60 1,47 —16,24 = 
Å C2 4,55 1,33 21,06*** 0,62 
Å c3 4,10 1,45 11,05*** 0,38 
D Å D1 3,11 1,48 7,02 = 
= D2 2,64 1,40 —16,40 = 
= D3 2,59 1,44 —16,93 EL 


Für nicht signifikant aussagekräftige Symbole kann kein r berechnet 
werden. Dies wird mit ’-’ vermerkt. *** zeigt, dass ein p-Wert von 
p < 0,001 erreicht wird. 


Die offenen Antworten für die Bedeutung der Symbole aus dem zweiten 
Teil der Onlinestudie werden in die vier Kategorien „richtig“, „teilweise 
richtig“, „falsch“ und „keine Antwort” unterteilt. Antworten werden 
als „richtig“ gewertet, wenn sie zeigen, dass die Probanden die Bedeu- 
tung der Symbole verstanden haben. Hierbei werden Abkürzungen, 
Synonyme und andere Beschreibungen akzeptiert. „Teilweise richtig“ 
sind Antworten die erkennen lassen, dass die Bedeutung der Symbole 
verstanden wird, aber zu generell, speziell oder wörtlich beschrieben 
sind. Antworten mit vollständig falscher Bedeutung werden als „falsch“ 
gewertet. Diese Kodierung erfolgt durch drei Prüfer unabhängig vonein- 
ander und wird über ein Mehrheitsvotum festgelegt. 
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Für die Berechnung der Erkennungsraten der Symbole werden alle 
„richtig“ und „teilweise richtig“ klassifizierten Antworten als korrekt 
und die Kodierungen aller Kategorien für die Gesamtzahl der Antworten 
eingesetzt. Die Erkennungsraten (ER) werden mit einem z-Test gegen 
die minimale Erkennungsrate von 67 % getestet (siehe Kapitel 4.1). Wie 
in Tabelle 4.4 dargestellt, sind ausschließlich die Erkennungsraten für 
die offenen Antworten der Symbole C2 (z = 15,97;p < 0,05) und C3 
(z = 11,82; p < 0,05) signifikant aussagekräftig. 


Tabelle 4.4: 
Ergebnisse des z-Iests für die Auswertung der Erkennungsraten der Symbole (offene 
Antworten), nach [163] 


Symbol ER [%] z 

Al ADI 14,95 —29,55 
e AD2 21,44 —25,88 
8  AD3 55,29 —6,65 
= Gi 36,67 —17,23 
A C2 95,20 15,97 

c3 87,87 11,82 
DR D1 51,76 —8,63 
D2 30,89  —20,45 
D3 29,48 —22,25 


b 


Häufige Falschantworten enthalten Beschreibungen der Symbole oder 
der zugrundeliegenden Situation, z.B. „Fußgänger“, „Überqueren” oder 
„Fahrzeug“. Außerdem wird bspw. das ,,Audi-AI” Logo mit einem Warn- 
zeichen und Symbole D2 und D3 mit Sensoren verwechselt. Symbol AD3 
wird in vielen Fällen als Anhalten oder Abbiegen gedeutet. 


Die Probanden geben im gleichen Zusammenhang an, wie sicher sie sich 
sind, dass ihre offenen Antworten richtig sind. Diese Bewertung wird 
wie die Aussagekraft durch einen einseitigen t-Test mit dem Mittelwert 
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der Skala (3,5) verglichen (siehe Kapitel 4.1). Ähnlich wie in den anderen 
beiden Tests zeigt Tabelle 4.5, dass die mittleren Sicherheiten ausschließ- 
lich für die Antworten zu den Symbolen C2 (t(708) = 19,71;p < 0,05) 
und C3 (t(708) = 8,61; p < 0,05) signifikant höher sind als der von Tijus 
et al. definierte Schwellwert (vgl. Tabelle 4.3 und Tabelle 4.4) [21]. Auch 
in diesem Fall weisen die Pearson-Korrelationskoeffizienten r für das 
Symbol C3 einen mittleren und für C2 einen starken Effekt auf [179]. 


Tabelle 4.5: 
Ergebnisse des einseitigen t-Tests für die Auswertung der Sicherheit/Konfidenz der offe- 
nen Antworten, nach [163] 


Symbol Mittelwert Standardabw. t r 
Al AD1 2,08 1,37 —27,66 = 
=  AD2 2,06 1,35 —28,43 — 
‘ADS 3, 28 1,39 —4, 30 = 
Ss C1 2,68 1,45 —15,08 = 
Å c2 4,43 1,26 19,71*** 0,59 
Å C3 3,95 1,39 8,61*** 0,31 
DÅ D1 3,14 1,46 —6,60 = 
= D2 2,74 1,43 —14,15 = 
= D3 2,64 1,41 —16,35 = 


Für nicht signifikant sichere Antworten kann kein r berechnet werden. 
Dies wird mit ’-’ vermerkt. *** zeigt, dass ein p-Wert von p < 0,001 
erreicht wird. 


Die Ergebnisse zeigen, dass die Symbole C2 und C3 intuitiv verständlich 
und aussagekräftig sind sowie mit einer hohen angegebenen Sicherheit 
von 4,43 und 3,95 erkannt werden. Besonders das Symbol C2 wird stets 
sehr gut bewertet. Der einzige Unterschied zu Symbol C3 besteht in 
dem stilisiert dargestellten Zebrastreifen. Alle anderen Symbole sind 
in der offenen Abfrage nicht ausreichend aussagekräftig und weisen 
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niedrige Erkennungsraten auf. Dies bestätigt, dass v.a. bereits aus dem 
Straßenverkehr bekannte Symbole richtig erkannt werden, unbekannte 
jedoch nur eine geringe Aussagekraft bzw. Intuitivität besitzen. 


Tabelle 4.6: 
Ergebnisse des z-Iests für die Auswertung der Erkennungsraten der Symbole (vorgegebe- 
ne Antworten), nach [163] 


Symbol ER [%] z 

Al ADI 23,70 24,52 
™  AD2 48,66 —10,36 
‘*  AD3 81,66 8,32 
= C1 54,30 —7,19 
an C2 83,78 9,51 

C3 58,53 —4,81 
DÅ DA 87,87 11,83 
= D2 37,38  —16,76 
= D3 36,39 -17,33 


Auch fiir die vorgegebenen Antworten aus dem dritten Teil der Online- 
studie werden die berechneten Erkennungsraten mit dem Schwellwert 
von 67 % verglichen (siehe Kapitel 4.1). Dabei sind die Erkennungsraten 
der Symbole AD3 (z = 8,32; p < 0,05), C2 (z = 9,51; p < 0,05) und 
D1 (z = 11,83; p < 0,05) signifikant höher als der definierte Schwell- 
wert (siehe Tabelle 4.6). Für das Symbol C3 wählen nur 58,53% der 
Probanden die korrekte Antwort, während 39,35 % das Symbol fälschli- 
cherweise als „Das Fahrzeug hat einen Fußgänger erkannt” deuten. Dies 
kann daran liegen, dass die richtige Bedeutung des Vorfahrt-gewährens 
voraussetzt, dass ein Fußgänger erkannt wird oder, dass die Probanden 
im Teil drei der Studie bereits alle Symbole sahen und deshalb auf eine 
andere Bedeutung des Zeichens schlussfolgern. 
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Die Probanden bewerten ihre Auswahl der vorgegebenen Antworten für 
fünf Symbole signifikant sicherer als den Mittelwert der Skala 3,5 (siehe 
Tabelle 4.7). Das Symbol C1 (t(708) = 2,35; p < 0,05) zeigt dabei einen 
kleinen Effekt (r < 0,1), während Symbole AD3 (t(708) = 19,60;p < 
0,05), C2 (t(708) = 33,24; p < 0,05), C3 (t(708) = 18,60; p < 0,05) und 
D1 (t(708) = 16,71; p < 0,05) jeweils einen starken Effekt (r > 0,5) auf- 
weisen. Dies zeigt deutlich, dass Probanden die verständlichen Symbole 
AD3, C2 und D1 nicht nur richtig deuten können, sondern dass sie sich 
bei ihrer Auswahl auch sehr sicher sind. Dadurch kann ein Erraten der 
richtigen Antworten ausgeschlossen werden. Hervorzuheben ist jedoch, 
dass sich die Probanden bei ihrer Auswahl zu den Symbole C1 und 
C3 sehr sicher sind, obwohl die dazugehörigen Erkennungsraten das 
geforderte Kriterium aus Kapitel 4.1 nicht erfüllen. Dies weist darauf 
hin, dass ein großer Teil der Probanden eine falsche Antwortoption als 
richtig deutet und damit die Zeichen mehrdeutig sind. 


Die Symbole AD3 (automatisierter Fahrmodus), C2 (Vorfahrt gewähren 
für Fußgänger) und D1 (Erkennen eines Fußgängers) zeigen für die 
jeweiligen Nachrichten die besten Ergebnisse aus den untersuchten Zei- 
chen (siehe Abbildung 4.9). Symbol C2 kann mit hoher Intuitivität auch 
bei offenen Fragen erkannt werden, während Probanden AD3 und D1 
lediglich aus vorgegebenen Antworten sehr sicher der richtigen Bedeu- 
tung zuordnen können. Die Ergebnisse bestätigen die Voruntersuchung 
zur Intuitivität von Zeichen und Dynamiken (siehe Kapitel 4.2) und 
zeigen, dass lediglich bekannte Symbole intuitiv verständlich und aus- 
sagekräftig sind. Unbekannte Symbole oder Nachrichten, die heute im 
Straßenverkehr nicht notwendig sind, besitzen eine geringe Intuitivität 
(z.B. automatisierter Fahrmodus). Im Gegensatz dazu werden manche 
Symbole mit hohen Erkennungsraten erkannt, wenn verschiedene Ant- 
wortmöglichkeiten zur Auswahl stehen. Dies deutet darauf hin, dass 


Symbole mit bereits gelerntem Vorwissen sicher erkannt werden können. 
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Tabelle 4.7: 
Ergebnisse des einseitigen t-Tests für die Auswertung der Sicherheit/Konfidenz der vorge- 
gebenen Antworten, nach [163] 


Symbol Mittelwert Standardabw. t r 

Al AD1 3,29 1,27 —4,34 = 

e  AD2 3,21 1,33 —5,82 = 
‘S*  AD3 4,44 1,28 19,60*** 0,99 
= C1 3,62 1,34 2,35* 0,08 
FR c2 4,83 1,07 33,24*** 0,78 
Å c3 4,31 1,15 18,60*** 0,57 
DÅ D1 4,31 1,30 16, 71*** 0,53 

= D2 3,31 1,24 —4,05 — 

= D3 3,31 1,24 —4,08 = 


Für nicht signifikant sichere Antworten kann kein r berechnet werden. 
Dies wird mit ’-’ vermerkt. * zeigt, dass ein p-Wert von p < 0,05 
erreicht wird, *** weist auf einen p-Wert von p < 0,001 hin. 


Abbildung 4.9: Ausgewählte Symbole der Onlinestudie für eine verständliche Fahrzeug- 
Fußgänger-Kommunikation, nach [163] 


Einfluss von Farben auf die Verständlichkeit von Symbolen 


Die Sicherheit der Probanden, dass ein farbiges Symbol eine bestim- 
me Nachricht visualisieren soll, wird mit Hilfe einer Varianzanalyse 
(Analysis of Variance (ANOVA)) ausgewertet. Eine Voraussetzung hier- 
für ist das Kriterium der Sphärizität. Diese Voraussetzung kann mit ei- 
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nem Mauchly-Test überprüft werden und wird im vorliegenden Fall ver- 
letzt. Deshalb muss die Sphärizität durch eine Greenhouse-Geisser- bzw. 
Huynh-Feldt-Korrektur hergestellt werden. Die korrigierte ANOVA mit 
Messwiederholung zeigt dabei für jedes Symbol einen signifikanten 
Unterschied zwischen den Konfidenzbewertungen der Farben (siehe 
Tabelle A.1, Anhang A.2). Diese Varianzen werden anschließend mit 
einem Post-Hoc-Test bzgl. des kleinsten signifikanten Unterschieds ge- 
nauer untersucht. Nähere Ausführungen dieser statistischen Methoden 
werden durch Field beschrieben [160]. 


In Tabelle 4.8 sind die mittleren Konfidenzbewertungen für die Symbole 
AD1, AD2 und AD3 aufgeführt. Sie zeigen, wie sicher sich die Probanden 
sind, dass das Zeichen in der jeweiligen Farbe einen automatisierten 
Fahrmodus darstellt. Die beste Zuordnung der farbigen Symbole zur 
vorgegebenen Nachricht erfolgt jeweils für die Farben Grün (Ø = 3, 69) 
und Weiß (Ø = 3, 60). Die niedrigste Sicherheit zeigen die Farben Blau 
(Ø = 3,06) und Magenta (@ = 3,01). Diese Rangfolge gilt für alle 
Symbole dieser Nachricht, wobei jeweils kein signifikanter Unterschied 
(p > 0,05) zwischen den Farben Blau und Magenta besteht. Darüber 
hinaus kann für das Symbol AD3 kein signifikanter Unterschied (p > 
0,05) zwischen den Farben Weiß und Grün nachgewiesen werden. 


Tabelle 4.8: 
Mittlere Konfidenzbewertung der untersuchten Symbole für die Darstellung eines auto- 
matisierten Fahrmodus, nach [163] 


Symbol Weiß Grün Türkis Blau Gelb Magenta 
Al AD1 2,93 3,01 2,67 2,52 2,84 2,48 
~ AD2 3,41 3,58 3,13 2,96 3,25 2,91 
k- AD3 4,46 4,48 4,01 3,70 4,11 3,64 
Ø 3,60 3,69 3,27 3,06 3,50 3,01 
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Die Auswertung der farbigen Symbole C1, C2 und C3 für die Nachricht 
des Vorfahrt-gewährens erfolgt wie für den automatisierten Fahrmodus. 
Tabelle 4.9 zeigt, dass die mittlere Konfidenzbewertung für die Farbe 
Grün stets am höchsten ist (@ = 4,87). Die durchschnittliche Sicherheit 
der Probanden für weiße Symbole kann mit 4,22 angegeben werden. 
Blau (Ø = 3,33) und Magenta (Ø = 3,18) werden wieder am schlech- 
testen bewertet. Für die Symbole C1 und C3 besteht zwischen Blau und 
Gelb kein signifikanter Unterschied (p > 0,05). 


Tabelle 4.9: 
Mittlere Konfidenzbewertung der untersuchten Symbole für Vorfahrt gewähren für Fuß- 
gänger, nach [163] 
Symbol Weiß Grün Türkis Blau Gelb Magenta 
S C1 3,52 4,22 3,17 2,91 2,98 2,74 
Å C2 4,78 5,33 4,20 3,68 3,86 3,57 
C3 4,37 5,06 3,84 3,40 3,50 3,23 


D 4,22 4,87 3,74 3,33 3,45 3,18 


Tabelle 4.10 zeigt die Konfidenzbewertung der farbigen Symbole D1, D2 
und D3 für das Erkennen eines Fußgängers. Wie bereits bei den anderen 
beiden Nachrichten bewerten Probanden die Farben Weiß (@ = 3, 82) 
und Grün (Ø = 3, 89) stets mit hoher Sicherheit, dass das Zeichen die 
vorgegebenen Bedeutung darstellt. Für das Symbol D1 besteht zwischen 
diesen beiden Farben kein signifikanter Unterschied (p > 0,05). Die 
Symbole D2 und D3 weisen für Grün die höchsten Konfidenzbewer- 
tungen auf. Die am niedrigsten bewerteten Farben sind jeweils Blau 
(Ø = 3,16) und Magenta (Ø = 3,17). Diese Farben zeigen wieder für 
keines der Zeichen für das Erkennen eines Fußgängers einen signifikan- 
ten Unterschied (p > 0,05). Auch die Bewertungen der Farben Türkis 
und Gelb unterscheiden sich im Symbol D1 nicht signifikant (p > 0,05). 
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Tabelle 4.10: 
Mittlere Konfidenzbewertung der untersuchten Symbole für das Erkennen eines Fußgän- 
gers, nach [163] 


Symbol Weiß Grün Türkis Blau Gelb Magenta 
A D1 4,68 4,63 4,06 3,68 4,10 3,72 
2 D2 3,43 356 314 2,92 3,24 2,91 
= D3 3,34 3,48 3,11 2,88 3,24 2,88 
Ø 3,82 3,89 3,44 3,16 3,53 3,17 


Die mittleren Konfidenzbewertungen der Probanden für die untersuch- 
ten Farben sind in Abbildung 4.10 zusammengefasst dargestellt. Die 
höchsten Bewertungen erhalten die farbigen Zeichen für die Botschaft 
Vorfahrt gewähren, während die niedrigsten für die Visualisierung des 
automatisierten Fahrzustands gemessen werden können. Die Rangfolge 
der Farben ist für den automatisierten Fahrmodus und das Erkennen 
eines Fußgängers gleich und zeigt, dass Weiß und Grün mit nur klei- 
nen Unterschieden die besten Bewertungen erhalten. Blau und Magenta 
sind für diese beiden Nachrichten jeweils die am niedrigsten bewerteten 
Farben, wobei sich deren Konfidenzbewertungen für die Nachrichten 
„Fußgänger darf gehen” und „Fahrzeug hat Fußgänger erkannt” nicht 
signifikant unterscheiden. Dieses Ergebnis kann mit dem geringeren 
Kontrast der Farben zum dunklen Hintergrund des Audi Aicon in Ver- 
bindung stehen. Die gelb dargestellten Zeichen werden für den automa- 
tisierten Fahrmodus und das Erkennen eines Fußgängers tendenziell 
besser bewertet als die türkisen Symbole. Dass alle Farben mit Blau- 
anteilen schlechter bewertet werden als diejenigen ohne, kann darauf 
hinweisen, dass bläuliche Farben für diese beiden Nachrichten nur be- 
dingt geeignet sind. Für das Gewähren der Vorfahrt von Fußgängern 
wird Grün signifikant besser als Weiß bewertet. Für diese Nachricht ist 
Türkis die Farbe mit dritthöchster Konfidenzbewertung. Dies kann mit 
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der Ähnlichkeit von Blau-Grün mit Grün bzw. Gelblich-Grün und der 
Verwendung von Grün als Signalfarbe im Straßenverkehr begründet 
werden. Grün wird bei Ampelanlagen eingesetzt, um das Erteilen einer 
Vorfahrt anzuzeigen. 


a 


sehr sicher 


5 4,9 
4,2 
3,9 
. 3,7 3,7 2e 
2.7356. 3,5 
34 3,5 — 3,4 
5 3.3 as 3,2 3,2 
3,1 3,0 x £ a 
3 
2 
go 
£ 5 Automatisierter Fahrmodus Vorfahrt gewähren Detektion eines Fußgängers 
= 
@Griin DWeiß OGelb mTürkis mBlau Magenta 


Abbildung 4.10: Mittlere Konfidenzbewertung der Farben fiir die drei untersuchten Nach- 
richten [105] 


Diese Ergebnisse bekraftigen Ergebnisse von Willrodt et al. [169]. Auch 
hier ist Grün die am signifikant höchsten bewertete Farbe für das Er- 
kennen eines Fußgängers und für Vorfahrt gewähren. In der hier vorge- 
stellten Untersuchung erzielen Grün und Weiß ähnliche Ergebnisse und 
unterscheiden sich für die Symbole AD3 und D1 nicht signifikant in ih- 
ren Konfidenzbewertungen, mit der Ausnahme des Vorfahrt-gewährens. 
Ein Vorfahrt gewähren verbinden die Probanden mit der gleichen Be- 
deutung der bereits im Straßenverkehr erlernten Farbe Grün. Dies legt 
nahe, dass auch Farben nicht intuitiv einer bestimmten Nachricht zuge- 
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ordnet werden können und sie vielmehr gelernt werden müssen. Diese 
Erkenntnis trifft auch auf die von der Gesetzgebung vorgeschlagene 
Farbe Türkis für die Kommunikation und Signalisierung automatisierter 
Fahrzeuge zu (siehe Anhang 2.1.2). Möglicherweise unterstützt eine 
im Straßenverkehr unübliche Farbe den Lernprozess für die richtige 
Zuordnung von Symbolen und Bedeutungen, wobei dann v.a. Türkis 
und Magenta relevant wären. 

Die Auswertung der Onlinestudie legt die Verwendung grüner Symbole, 
v.a. zur Darstellung des Vorfahrt-gewährens für Fußgänger, nahe. Ein- 
schränkend muss jedoch auf die potentielle Verwechslungsgefahr mit 
bestehenden Ampelanlagen und Zeichen im Straßenverkehr hingewie- 
sen werden. Eine Nachricht, die fälschlicherweise als Vorfahrt gewähren 
interpretiert wird, kann zu schwerwiegenden Unfällen führen. Außer- 
dem kann Grün nicht von allen farbfehlsichtigen Verkehrsteilnehmern 
wahrgenommen werden, wodurch die unterstützende Wirkung auf die 
Verständlichkeit der Symbole entfällt. Dies wurde in [105] mit einer 
Stichprobe von acht Probanden nachgewiesen und gilt besonders auch 
für die Farbe Türkis bzw. Blau-Grün, was durch deren wahrgenommene 
Ähnlichkeit zu Grün bedingt ist. 

Diese Evaluation der Onlinestudie und auch die Ergebnisse der in Ka- 
pitel 4.2 beschriebenen Voruntersuchung zeigen deutlich, dass Zeichen 
häufig nicht intuitiv verstanden werden. So werden lediglich die Sym- 
bole 27, C2 und C3, welche aus dem Straßenverkehr bekannt sind, in- 
tuitiv erkannt. Eine Kombination von Farben und Zeichen erhöht die 
Intuitivität in den meisten Fällen nicht. Nur für grüne Symbole des 
Vorfahr-Gewährens erhöht sich die Aussagekraft gegenüber weißen Zei- 
chen signifikant. Dies zeigt eindeutig, dass Symbole und Farben für 
eine Fahrzeug-Fußgänger-Kommunikation erlernt werden müssen, be- 
vor sie zuverlässig im Straßenverkehr eingesetzt werden können. Eine 
Möglichkeit hierfür wäre, die Zeichen bereits beim „manuellen Fahren”, 
parallel zur bekannten Kommunikation des Fahrers, anzuzeigen, damit 
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Fußgänger ein mentales Modell aufbauen und beide Kommunikations- 
arten in Verbindung bringen können. Ein automatisches, sicheres und 
komfortables Anzeigen der entsprechenden Symbole ist mit Hilfe einer 
Fahrerintentionserkennung an Zebrastreifen möglich, welche erkennt, 
ob ein Fahrer anhalten möchte oder nicht. Nach der Aufstellung einer 
Untersuchungskritik zu den beiden Studien, wird im darauffolgenden 
Kapitel 5 ein geeigneter Algorithmus zur Fahrerintentionserkennung 
vorgestellt. 


4.4 Untersuchungskritik 


Für die vorgestellte Voruntersuchung und die Onlinestudie können ein- 
zelne Kritikpunkte aufgeführt werden. So wurde in keiner der beiden 
Studien ein bewegtes Fahrzeug in einer Realfahrstudie oder ein vorhan- 
dener Fußgängerüberweg im Straßenverkehr eingesetzt. Dies bedeutet, 
dass keine reale Situation bewertet wurde. Diese Untersuchungskritik 
kann teilweise durch eine Arbeit von Othersen et al. zurückgewiesen 
werden, da die Autoren eine Realfahrstudie mit der Darstellung weißer 
Symbole durchführten und zu ähnlichen Ergebnissen kommen [19]. Die 
Verständlichkeit der Zeichen könnte durch die Fahrzeugbewegung und 
einer Abfolge unterschiedlicher Symbole erhöht werden. 


Die Ergebnisse geben einen Einblick in die lichtbasierte Fahrzeug- 
Fußgänger-Kommunikation, wobei v.a. in der Voruntersuchung, aber 
auch in der Onlinestudie kaum Senioren und keine Kinder in die 
Stichproben einbezogen wurden. Die Altersverteilungen der hier ausge- 
wählten Stichproben ermöglicht lediglich eine eingeschränkte Deutung 
der Ergebnisse für eine künftige Kommunikation im Straßenverkehr. 
Aus der Literatur ist bekannt, dass sich sowohl jüngere, als auch ältere 
Verkehrsteilnehmer anders verhalten als durchschnittliche Erwachsene. 
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So zeigen bspw. Hsu et al., dass Kinder im Straßenverkehr generell 
zu wenig aufmerksam sind und Senioren konservativer als durch- 
schnittliche Erwachsene entscheiden, wenn sie eine Straße überqueren 
[180]. 


Weiter beeinflusst jede Auswahl auf ein bestimmtes Probandenkollektiv 
die Ergebnisse einer Untersuchung. In den hier vorgestellten Studien 
wird diese durch die Wahl der Probandenpools und die verwendeten 
Filterfragen der Onlinestudie beeinflusst. Die Ergebnisse können des- 
halb lediglich eine Tendenz für reale Verkehrssituationen mit zufälligen 


Kommunikationspartnern liefern. 


Außerdem untersuchen beide Studien ausschließlich die Kommunikati- 
on eines Fahrzeugs mit einem einzelnen Fußgänger. Im Straßenverkehr 
sind jedoch häufig mindestens zwei Verkehrsteilnehmer gleichzeitig an 
einer Kommunikation beteiligt und so stellt sich bspw. die Frage, an 
wen die Nachricht adressiert ist. Dies könnte mittels einer gerichteten 
Lichtquelle, wie von Willrodt et al. beschrieben [181], behoben werden. 


Ein weiterer Kritikpunkt der Untersuchungen ist, dass nicht alle poten- 
tiell möglichen Symbole und Farben evaluiert wurden. Die Ergebnisse 
und Schlussfolgerungen treffen daher v.a. auf die untersuchten Zeichen 
zu. Weitere, nicht untersuchte Symbole oder Farben können eine höhere 
Intuitivität oder Verständlichkeit aufweisen. So zeigt der Vergleich von 
Symbol C2 und C3 der Onlinestudie, dass kleine Details wie das Hin- 
zufügen eines Zebrastreifens einen großen Einfluss (offene Antworten: 
+7,3 %; vorgegebene Antworten: +25,3%) auf die Verständlichkeit ha- 
ben können. Außerdem werden bspw. die Symbole 16, 20, 26 und D1 
teilweise so gedeutet, dass der dargestellte Fußgänger vom Fahrzeug 
wegläuft, weiler am Bildrand nach außen gewandt dargestellt wurde. 
Diese Darstellung der Fußgänger sollte daher im Symbol horizontal 
gespiegelt dargestellt werden. 
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Darüber hinaus könnten beim Vergleich bzw. der Berechnung einer 
Kovarianz der am Fahrzeug und mittels eines Notebooks bestimmten 
Erkennungsraten Scheinkorrelationen auftreten. Beide Fragestellungen 
wurden von den gleichen Probanden in einer festgelegten Abfolge be- 
antwortet. Dadurch könnten in den Daten Lerneffekte enthalten sein. 


Die Untersuchung der Bildschirmfarbwiedergabe zeigt, dass die aus- 
gewerteten Displays durchschnittlich den sRGB-Farbraum sehr genau 
abbilden. In Einzelfällen kann die farbliche Abweichung jedoch höher 
sein, v.a. wenn benutzerdefinierte Einstellungen der Probanden berück- 
sichtigt werden (z.B. Farbverschiebungen, monochrome Bildschirmwie- 
dergabe oder Gammakorrekturen). Dadurch ist es möglich, dass den 
Probanden nicht die gewählten, sondern nach Fortner und Meyer [173] 
signifikant andere Farben gezeigt werden. 


Zuletzt soll noch auf die aktuelle Zulassungsfähigkeit der untersuchten 
Zeichen hingewiesen werden. Wie in Kapitel 2.1.2 beschrieben, sind 
derzeit Konzepte zur Fahrzeug-Fußgänger-Kommunikation in Arbeit, 
doch besteht keine gesetzliche Grundlage für die Darstellung der unter- 
suchten Zeichen. Dies betrifft sowohl die evaluierten Dynamiken und 
Symbole, als auch die Farben aus der Onlinestudie. Aktuell ist es also 
nicht möglich die Fahrzeug-Fußgänger-Kommunikation wie vorgestellt 
umzusetzen, weil erst eine Gesetzesänderung notwendig ist. Die hier 
vorgestellten Untersuchungen könnten als Grundlage für Diskussionen 
in Zulassungs- und Standardisierungsgremien dienen. 
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FAHRERINTENTIONSERKENNUNG 
MITTELS DEEP LEARNING 


Dieses Kapitel beschreibt die Entwicklung eines Algorithmus zur Fah- 
rerintentionserkennung. Dazu werden einleitend Anwendungsbeispiele 
für die Fahrerintentionserkennung ausgeführt und daraus die Anfor- 
derungen an das System definiert. Anschließend wird die Entwicklung 
des Algorithmus dargelegt, wobei zuerst die verwendeten Daten sowie 
das dazugehörige Labeling und anschließend die Struktur des Algorith- 
mus beschrieben werden. Zuletzt werden die Ergebnisse dieses Kapitels 
dargelegt und diskutiert. 


Die in dieser Arbeit beschriebene Entwicklung eines Algorithmus zur 
Fahrerintentionserkennung mittels ANNs (vgl. Kapitel 2.4) beruht v.a. 
auf der Zusammenstellung eines geeigneten Datensatzes, dem Finden 
einer Netzwerktopologie und Interpretation der Prädiktion. Der im- 
plementierte, dreistufige Algorithmus wird auf Daten einzelner Fahrer 
angepasst, um möglichst genaue Vorhersagen der Intention der jeweili- 
gen Person treffen zu können. Die nachfolgend dargestellten Ergebnisse 
beruhen teilweise auf den Ausarbeitungen von Prösl, Höß, Schleyer und 
Attia [67][182][183][184] sowie drei Veröffentlichungen [164][165][185], 
die im Rahmen dieser Arbeit erstellt wurden. Insbesondere beruht die 
Generierung der Datensätze auf Prösl [67] und Schleyer [183], der Auf- 
bau des Algorithmus und Auswahl der relevanten Features auf Höß 
[182] und das Transfer Learning, Trainieren bzw. Personalisierung der 
Machine Learning Algorithmen auf Schleyer [183] und Attia [184]. 
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Die Entwicklung eines Algorithmus zur Fahrerintentionserkennung ist 
eine Möglichkeit, Zeichen mit geringer Intuitivität (siehe Kapitel 4) in 
einer Übergangsphase vom „manuellen“ zum automatisierten Fahren 
zu lernen. Außerdem kann der Algorithmus als Wegbereiter für eine 
unterstützende Kommunikation beim „manuellen“ Fahren eines Fahr- 
zeugs eingesetzt werden. Dadurch kann die Nutzungshäufigkeit der 
neuartigen Kommunikationsmittel erhöht und eine sichere und verständ- 
liche Kommunikation mit Fußgängern umgesetzt werden. Vor allem bei 
schlechten Sichtverhältnissen bietet eine lichtbasierte Kommunikation 
Vorteile beim Erkennen der Zeichen. 


5.1 Anforderungen an eine 
Fahrerintentionserkennung 


Nachfolgend sollen für den zu entwickelnden Algorithmus der Fahrer- 
intentionserkennung Anforderungen definiert werden. Diese werden 
v.a. durch die Zielanwendung beeinflusst, da für verschiedene Applika- 
tionen unterschiedlich kritische Fehlerfälle zu berücksichtigen sind. Die 
Definition der Anforderungen beruht dabei teilweise auf der Ausarbei- 
tung von Höß [182] und einer Veröffentlichung [164], die im Rahmen 
dieser Arbeit entstand. 


5.1.1 Anwendungsbeispiele für die 
Fahrerintentionserkennung 
Wie oben beschrieben bestimmen die Anwendungsfälle die möglichen 


Fehlerfälle der Fahrerintentionserkennung und deren Auswirkung auf 
das Umfeld des Fahrzeugs. Im Speziellen ist das Ziel des Algorithmus zu 
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prädizieren, ob ein Fahrer eines Fahrzeugs anhalten möchte oder nicht, 
bzw. ob das Fahrzeug in einem nachfolgenden Zeitintervall anhalten 
wird. Deshalb sollen im Folgenden Beispiele für den Einsatz der Fahrer- 
intentionserkennung aufgezeigt werden. Diese beschränken sich nicht 
auf Anwendungen in automatisierten Fahrzeugen, sondern beziehen 
auch weitere Beispiele mit ein. Damit können möglicherweise strenge- 
re Anforderungen des Algorithmus für diverse Anwendungsbeispiele 
übernommen werden, ohne dass die später umgesetzte Fahrerintenti- 


onserkennung weiterer Anpassungen bedarf. 


Ein erstes Anwendungsbeispiel für die Fahrerintentionserkennung ist 
das Erkennen eines Anhaltens bei der Fahrt auf einer Autobahn. Weil auf 
Autobahnen, abgesehen von Notfallsituationen, ein allgemeines Park- 
und Halteverbot besteht, kann eben ein solcher Notfall durch Prädiktion 
der Fahrerintention frühzeitig erkannt werden. In diesem Fall könnte 
automatisch eine Warnfunktion, z.B. Warnblinklicht, aktiviert werden, 
noch bevor das Fahrzeug zum Stehen gekommen ist. Als Ausnahme 
zu diesem Beispiel ist der Stau zu nennen, da auch hier das Fahrzeug 
zum Stehen kommt, jedoch keine Gefahr vorliegt. Häufig wird aber auch 
beim erstmaligen Erkennen des Staus von vielen Verkehrsteilnehmern 
das Warnblinklicht als Hinweis auf die langsam fahrenden Fahrzeuge 
aktiviert, was insbesondere durch §16 StVO Abs. 2 geregelt ist [186]. 
Zusätzlich kann der Algorithmus über eine Spurerkennung oder Ab- 
standssensorik plausibilisiert werden, um so die meisten Fehlerfälle 
auszuschließen. Bei Nichterkennen der Situation (FN-Klassifikation, vgl. 
Abbildung 2.4) würden andere Verkehrsteilnehmer keinen Sicherheits- 
verlust erfahren, da nicht davon auszugehen ist, dass in naher Zukunft 
alle Fahrzeuge mit dem beschriebenen System ausgestattet sind. Bei 
einer FP-Klassifikation (vgl. Abbildung 2.4), also dem Erkennen des 
Anhaltens ohne, dass der Fahrer stehen bleiben möchte, werden an- 
dere Verkehrsteilnehmer auf eine Gefahr hingewiesen und verhalten 
sich wahrscheinlich vorsichtiger als ohne Anzeige des Warnblinklichts. 
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Aus keinem der beiden Fehlerfälle kann eine akute Gefahr für andere 
Verkehrsteilnehmer abgeleitet werden. 


Als weiterer Anwendungsfall kann eine Verbesserung des automati- 
schen Start-Stopp Systems durch frühzeitige Prädiktion des Fahrerver- 
haltens erreicht werden. So könnte vor dem Abschalten des Motors bei 
Unterschreitung einer bestimmten Geschwindigkeit, z.B. 7 kmh, die In- 
tention des Fahrer anzuhalten genutzt werden, um den Aus-Zyklus des 
Motors zu verlängern und somit noch mehr Energie und Emissionen zu 
sparen [187]. Sowohl im Falsch-negativ- als auch im Falsch-positiv Fall 
besteht keine Gefahr für andere Verkehrsteilnehmer und es ist höchstens 


ein Komfortverlust für den Fahrer zu erwarten. 


Ein weiteres Anwendungsbeispiel der Fahrerintentionserkennung ist ei- 
ne prädiktive Gangschaltung. Bei einem Automatikgetriebe kann durch 
frühzeitiges Erkennen der Anhalteintention bereits ein niedrigerer Gang 
eingelegt werden, um die Bremswirkung des Motors besser auszunutzen. 
Bei Elektrofahrzeugen kann stärker rekuperiert werden. Gleichermaßen 
kann für manuelle Getriebevarianten eine entsprechende Schaltemp- 
fehlung abgegeben werden. Wie auch beim Start-Stopp System führt 
jeder Fehlerfall zu einem Komfortverlust für den Fahrer, aber zu keiner 
akuten Gefahr für andere. 


Zuletzt kann der Algorithmus zur Prädiktion der Anhalteintention für 
die Kommunikation mit anderen Verkehrsteilnehmern eingesetzt wer- 
den. Besonders die Kommunikation mit Fußgängern ist ein wichtiger 
Anwendungsfall (siehe Kapitel 3.2). Die im heutigen Straßenverkehr 
häufig mehrdeutige Kommunikation [4] kann durch weitere Signalisie- 
rungen ergänzt bzw. vereinheitlicht werden. Außerdem kann das System 
als Vorbereitung zum automatisierten Fahren und die zukünftigen Fahr- 
zeugsignale genutzt werden, um diese in der Bevölkerung einzuführen 
(vgl. Kapitel 6.2.2). Notwendige Nachrichten einer Fahrzeug-Fußgänger- 
Kommunikation sind bspw. das Erkennen eines Fußgängers und das 
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Gewähren der Vorfahrt. Bei einer Falsch-Negativ (FN)-Klassifikation 
verhält sich das Fahrsystem wie bisherige Fahrzeuge und zeigt die ge- 
wünschten Kommunikationsinhalte nicht an. Hier entsteht durch Weg- 
fall der zusätzlichen Kommunikation lediglich ein Komfortverlust für 
andere Verkehrsteilnehmer bzw. die Signale werden von den Beteiligten 
nicht in einem geistigen Modell mit der vorliegenden Situation ver- 
knüpft. Bei einer Falsch-Positiv (FP)-Klassifikation wird beispielsweise 
ein Zeichen zum Erkennen eines Fußgängers oder dem Vorfahrt gewäh- 
ren angezeigt, obwohl der Fahrer nicht anhalten möchte. Hier entsteht 
ein Sicherheitsrisiko für alle Beteiligten, welches dringend zu unterbin- 
den ist. Vor allem für Fußgänger könnten fatale Folgen entstehen. 


Der zuletzt beschriebene Anwendungsfall, der auch in dieser Arbeit 
behandelt wird, ist der kritischste unter den genannten Einsatzmög- 
lichkeiten und soll daher als Referenz für die weiteren Betrachtungen 
herangezogen werden. 


5.1.2 Anforderungen an das System 


Die Zuverlässigkeit und Erkennungsrate des Systems zur Fahrerintenti- 
onserkennung an Fußgängerüberwegen hängen von mehreren Einfluss- 
faktoren ab. Diese sind z.B. die Definition des Anhaltens des Fahrzeugs 
und der Prädiktionshorizont, also die Zeit, wie lange vor einer tatsäch- 
lich feststehenden Intention des Fahrers anzuhalten, diese prädiziert 
werden soll. Weitere entscheidende Einflussgrößen sind die Richtig- 
positiv (RPR) bzw. Falsch-positiv Raten (FPR) der Klassifikation und die 
gewählte Teststrecke. 


Weil beim Überqueren einer Straße heute der Blickkontakt die häufigs- 
te Form der Kommunikation zwischen Fahrer und Fußgänger ist (vgl. 
Kapitel 3.1), soll diese Interaktion als Maßstab für die Anforderung an 
das System dienen. Ein Blickkontakt kann nach Scarl auf eine durch- 
schnittliche Distanz von 6 m erkannt werden, wobei typische Abstände 
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von bis zu 8m erreicht werden [94]. In dieser Arbeit soll deshalb eine 
maximale Distanz von x; = 8 m berücksichtigt werden. Daraus lässt sich 
der Prädiktionshorizont bzw. der Zeitbereich T4 bestimmen, wie lange 
vor dem Anhalten das System die Fahrerintention prädizieren kann. 


Der Zeitbereich T4 beschreibt die Zeit einer Verzögerung des Fahrzeug 
bis zum vollständigen Stillstand über eine Strecke von: 


Xp = Xs — Xa — Xf = 5,5m (5.1) 


Hier sind x, = 1m der Abstand zum Fußgängerüberweg und x f= 
1,5 m die Lange von Fahrerposition bis Fahrzeugfront, wo die Display- 
flächen angebracht werden (siehe Abbildung 5.1). Zusätzlich ist der 
Startpunkt der Verzögerung x9 = Om. Nach Bella et al. kann bei An- 
wesenheit von Fußgängern im innerstädtischen Bereich eine mittlere 
Verzögerung von a = —2,62 ms”? angenommen werden [87]. Mit der 
zurückgelegten Strecke während der Verzögerung 


1 
Xo = Xo + vot + sat (5.2) 
und vo = —at ergibt sich die Zeit bis zum vollständigen Stillstand zu: 
Ty =a)? a (5.3) 


Aus Gleichung 5.3 und den oben genannten Größen folgt: 


Om—5,5m 
. À = A 
TA iP ne? 2,08 (5.4) 


Dieser Zeitbereich von T4 = 2,0s soll als minimaler Pradiktionshorizont 
verwendet werden. 


Einschränkend ist bei der Definition von T4 zu bemerken, dass an Fuß- 
gängerüberwegen häufig kein Stillstand des Fahrzeugs erreicht wird 
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x%=8m 


i i i i 
xp =15m Xp =5,5m Xa=1m 


Abbildung 5.1: Blickkontakt zwischen Fahrer und Fußgänger in einer Anhaltesituation 
[164] 


[30][86][165]. In einer Analyse von ca. 200 Zeitreihen eines Geschwin- 
digkeitssignals an Fußgängerüberwegen beträgt die mittlere minimale 
Geschwindigkeit beim Anhalten 5, 05 kmh=!. Lediglich in 32,7 % wird 
ein Stillstand (0 kmh!) erreicht (vgl. Abbildung 5.2) [165]. Höhere Start- 
und Zielgeschwindigkeiten an einem Fußgängerüberweg führen zu ei- 
nem geringeren Zeitbereich, in dem die heutige Kommunikation mittels 
Blickkontakt stattfinden könnte. Damit ist der Prädiktionshorizont von 
Ta = 2,05 für alle potentiellen Interaktionen zwischen Fahrzeug bzw. 
Fahrer und Fußgänger ausreichend lang gewählt. 


Weil in den meisten Fällen (ca. 67,3%) kein Stillstand erreicht wird, 
muss auch das Anhalten des Fahrzeugs anders definiert werden. Zur 
Definition soll das Start-Stopp System heutiger Fahrzeuge herangezogen 
werden. Neben hierfür irrelevanten Bedingungen (z.B. Fahrertürschließ- 
zustand oder Motortemperatur [188]) wird das Start-Stopp System un- 
ter einer Geschwindigkeit von 7kmh”! aktiviert, was einem Anhalten 


105 


FAHRERINTENTIONSERKENNUNG MITTELS DEEP LEARNING 


=% 
oa 


Wahrscheinlichkeiten in % 
oO 


0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
Geschwindigkeiten in km/h 


Abbildung 5.2: Verteilung der minimalen Geschwindigkeiten an Zebrastreifen, nach [165] 


entspricht [187]. Analog soll diese Geschwindigkeitsschwelle als Plausi- 
bilisierung fiir die Pradiktion des Anhaltens herangezogen werden. 


Mit der Definition für ein Anhalten und der Zeit bis zum Stillstand 
des Fahrzeugs T4 kann die erforderliche Genauigkeit der Klassifikation 
festgelegt werden. Nach Omerbegovic sollen mindestens eine Richtig- 
positiv Rate von 95% und höchstens eine Falsch-positiv Rate von 5% 
erreicht werden, welche auch für diese Arbeit als Anforderung an das 
System bestimmt werden. Omerbegovic beschreibt eine ähnlich kritische 
Anwendung zur Empfehlung eines Überholvorgangs, welche bei einer 
FN-Klassifikation zu einem Komfortverlust, bei einer FP-Klassifikation 
zu einem erheblichen Sicherheitsrisiko führen würde [189]. 
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5.1.3 Kritische Bewertung der Anforderungen 


Für die oben beschriebenen Anforderungen können zwei Hauptkritik- 
punkte angeführt werden. Als erstes wird das Anhalten hier allgemein 
von der Start-Stopp Funktion abgeleitet und spiegelt nicht die subjektive 
Wahrnehmung oder Intention des Fahrers wieder. Das Fahrverhalten 
kann sich für unterschiedliche Fahrer signifikant unterscheiden und 
somit auch die minimale Geschwindigkeit beim Vorfahrt gewähren an 
Fußgängerüberwegen. Der zweite Kritikpunkt ist die nach Omerbegovic 
definierte Richtig-positiv und Falsch-positiv Rate. Vor allem vor dem 
Hintergrund, dass eine Falsch-positiv Klassifikation ein Sicherheitsri- 
siko für den Fahrer und andere Verkehrsteilnehmer darstellt, ist diese 
Falsch-positiv Rate von 5 % hoch angesetzt. 


5.2 Datensatz und Labeling der Daten 


Der Aufbau eines geeigneten Datensatzes spielt sowohl beim Trainie- 
ren (vgl. Kapitel 2.4.2) als auch beim Absichern (vgl. Kapitel 3.4) eines 
Machine Learning Algorithmus eine entscheidende Rolle. Der zugrun- 
deliegende Aufbau des dreistufigen Algorithmus wird in Kapitel 5.3 
beschrieben und besteht aus einem neuronalen Netzwerk, einem Ran- 
dom Forest und einer Plausibilisierung mittels eines Regelsatzes. Der 
Datensatz sollte dabei möglichst divers sein und potentielle Anwen- 
dungsfälle so genau wie möglich abbilden [39]. Zur Umsetzung einer 
Fahrerintentionserkennung ist es deshalb vorteilhaft, wenn ausschließ- 
lich Realfahrdaten verwendet werden. 
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5.2.1 Daten für das Vortrainieren 


Audi sammelt während der Entwicklung jedes neuen Fahrzeugs in der 
Breitenerprobung verschiedene Daten in einer zentralen Datenbank, wel- 
che als Grundlage für den erstellten Datensatz dienen. Aus der zentralen 
Datenbank rainCOAT (refreshed and improved new CANoe Offline Au- 
tomation Tester) werden für die vorliegende Arbeit Busdaten (FlexRay) 
aller Fahrzeuge der MLBevoGen2 (Modularer Längsbaukasten Evolu- 
tion Generation 2) Plattform, u.a. A6, A7, A8 und Q8, exportiert. Diese 
sind zum Zeitpunkt der Datenaufnahme bei Audi die höchstklassigen 
Fahrzeugmodelle mit Verbrennungsmotor. Insgesamt werden 7114 Da- 
tenreihen mit einer Lange von je 60s und einer Auflösung von 10 ms aus 
dem Zeitraum April 2017 bis Mai 2018 berücksichtigt. Damit stehen rund 
119 Stunden Datenmaterial zur Verfügung. Die Zeitreihen umfassen 91 
vorausgewählte Signale, jeweils 30 s vor bzw. nach dem Erkennen eines 
Zebrastreifens, wobei die zeitliche Auflösung der Signale zwischen 10 ms 
und 200 ms liegt. Bei Signalen mit einer geringeren zeitlichen Auflösung 
als 10 ms findet eine Überabtastung statt. 


Die Zebrastreifen werden über eine Verkehrszeichenerkennung iden- 
tifiziert, da in dieser Fahrzeugarchitektur und mit der verwendeten 
Kameraauswertung keine Möglichkeit besteht, Zebrastreifen direkt zu 
erkennen. In der Mitte der aufgenommenen Zeitsequenzen befindet 
sich also genau der Punkt, bei dem das Fahrzeug zum ersten Mal einen 
Zebrastreifen erkannt hat. Das Anhalten und damit auch der Zebrastrei- 
fen ist daher stets später in der Sequenz zu beobachten. Mit diesem 
Vorgehen der Situationserkennung werden ausschließlich Sequenzen 
um Zebrastreifen aufgenommen, wobei jedoch auch Zebrastreifen nicht 
erkannt werden könnten. Ist beispielsweise das entsprechende Verkehrs- 
schild am Zebrastreifen zu stark verschmutzt oder gibt es ein solches 
überhaupt nicht, so würde keine Datenreihen aufgezeichnet werden. Die 
Erkennungsgenauigkeiten moderner Algorithmen zur Verkehrszeichen- 
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erkennung sind mit ca. 99% vergleichbar mit der von Menschen und 
damit auch nahezu fehlerfrei. Deshalb kann davon ausgegangen wer- 
den, dass auch unter verschiedenen Witterungseinflüssen, Tageszeiten 
und bei Teilverdeckungen der Verkehrszeichen nahezu alle Schilder für 
Zebrastreifen erkannt werden [190]. Dadurch könnte einerseits die Ge- 
samtzahl der passierten Zebrastreifen von der Zahl der aufgenommenen 
Datenreihen abweichen, andererseits ist die Menge der Datenbeispie- 
le für das Training des Algorithmus zur Fahrerintentionserkennung 
ausreichend groß. In 1114 aus 7114 aufgenommenen Datenreihen verzö- 
gert das Fahrzeug am Zebrastreifen deutlich, um Fußgänger die Straße 
überqueren zu lassen. In allen übrigen Datenreihen wird zwar ein Ze- 
brastreifen mittels Verkehrszeichenerkennung erkannt, aber es befindet 
sich kein Fußgänger am Zebrastreifen bzw. das Fahrzeug hält nicht an. 


Wie in Kapitel 2.3 beschrieben, muss für ein überwachtes Lernen jedem 
Trainingsdatenvektor x ein Label y zugeordnet werden. Für die Verar- 
beitung im ersten Teil des Algorithmus (vgl. Kapitel 5.3) wird das Label 
für eine Zeitreihe der Eingangssignale (siehe Abbildung 5.3, blau und 
rot) durch eine darauffolgende Sequenz (siehe Abbildung 5.3, grün) fest- 
gelegt. Der rote Datenpunkt aus Abbildung 5.3 ist der letzte Datenpunkt 
der Trainingssequenz und stellt damit den aktuellen, zuletzt aufgenom- 
menen Zeitpunkt dar. Für die 35 Datenpunkte jedes Trainingsvektors 
(vgl. Kapitel 5.3) werden alle Zeitpunkte der Sequenz mit der Taktrate 
Tr = 100 ms verwendet, um nicht zu viele, sehr ähnliche Datenreihen zu 
erzeugen, aber trotzdem einen möglichst großen Datensatz zu erhalten. 
Für die fünf Testvektoren (vgl. Kapitel 5.3) wird jeder vierte Datenpunkt 
mit einer resultierenden Taktrate von Te = 400 ms betrachtet, wodurch 
sich neben der Länge der prädizierten Ausgangsmatrix y auch die Kom- 
plexität der Prädiktion verringert. Diese Reduktion der Auflösung von 
Trainings- und prädizierten Daten bzw. die damit geringere, zu verar- 
beitende Datenmenge ist notwendig, um den Algorithmus schneller 
trainieren und den Klassifikator im Fahrzeug betreiben zu können. Die 
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Signalwerte mit einer geringeren zeitlichen Auflösung werden dupli- 
ziert (z.B. Verkehrszeichenerkennung) und Signale mit höherer zeitlicher 
Auflösung (z.B. Geschwindigkeit) werden mittels Downsampling an die 
Taktrate tT, = 100 ms angepasst. Alle unberücksichtigten Datenpunkte 
einer Zeitsequenz sind in Abbildung 5.3 weiß dargestellt. 


Ts Ts Ts Ts Ts Ttr Tte Tte 


Abbildung 5.3: Beispiele für die Aufteilung der Trainings- (blau, rot) und Testdaten (grün) 


Um eine größere Anzahl an Datensätzen für das Training des ANN zu 
erhalten, wird über Data-Augmentation [39] der Datensatz künstlich 
erweitert. Dazu startet das Fenster für eine Trainingssequenz nicht nach 
der vorhergehenden, sondern bereits nach Ts = 500 ms, bzw. fünf Daten- 
punkten, während der vorhergehenden Zeitreihe. Durch diese Wahl von 
Ts und Tie treten nahezu keine Uberschneidungen der prädizierten Zeit- 
schritte der Sequenzen im erweiterten Datensatz auf. Aus jeder Sequenz 
mit einer Länge von 60s lassen sich somit 110 Datenreihen aufbauen, 
wodurch der gesamte Datensatz insgesamt 782.540 Zeitreihen umfasst. 


Im zweiten Teil des Algorithmus (vgl. Kapitel 5.3) werden die Daten 
teilweise automatisiert gelabelt. Dazu wird unter Berücksichtigung aller 
Datenpunkte zunächst ein Regelsatz erstellt (siehe Anhang B.1), wel- 
cher die Zeitreihen der Ausgangsdaten des ersten Teils und den letzten 
Datenpunkt der Eingangssequenz (siehe Abbildung 5.3, grün und rot) 
automatisiert einer Fahrerintention zuordnet. Diese 39 manuell erstellten 
Regeln, welche ähnlich wie ein Decision Tree aufgebaut sind (vgl. Kapi- 
tel 2.7), resultieren entweder in der Intention „Fahrer möchte anhalten” 
oder „Fahrer möchte nicht anhalten“. Damit werden die zur Verfügung 
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stehenden Sequenzen automatisiert einem Label zugeordnet. Durch das 
Bilden der 39 Regeln wird versucht die Daten objektiv, standardisiert 
und gleichmäßig zu Labeln. 
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Abbildung 5.4: Accuracy des Decision Trees für das generalisierte Labeln der Daten, nach 
[182] 


Um ein noch genaueres Labeln der Daten mit der jeweiligen Fahrerinten- 
tion zu erreichen, werden die Entscheidungsschwellen der teilweise 
automatisiert gelabelten Daten durch Trainieren eines Decision Trees 
generalisiert. Hierfür werden drei Decision Trees variabler Tiefe mit 
unterschiedlich großen Teilen der durch die Regeln klassifizierten Daten 
trainiert. Die restlichen Daten werden zum Validieren des Ergebnisses 
verwendet. Wie in Abbildung 5.4 zu sehen ist, flachen die Accuracies 
der Decision Trees ab einer Tiefe von ca. neun ab. Dieser Punkt kann mit 
einer Accuracy von ca. 0,99 als guter Kompromiss zwischen exakter Wie- 
dergabe und generalisierter Deutung der Fahrerintention angenommen 
werden. Diese Annahme wird durch manuelles Überprüfen von jeweils 
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100 RPs und FPs durch zwei Personen abgesichert. Die beiden Experten 
bewerten die fälschlicherweise positiv klassifizierten Zeitsequenzen zu 
ca. 54% als eigentlich korrekte Klassifikation. Dies zeigt, dass der Decisi- 
on Tree die wahre Fahrerintention sehr gut wiedergibt, auch wenn v.a. 
beim Übergang von „Fahrer möchte anhalten“ und „Fahrer möchte nicht 
anhalten” die Entscheidung der beiden Experten nicht immer konsistent 
ist. Dadurch wird deutlich, dass die Fahrerintention sehr subjektiv und 
nur schwer zu generalisieren ist. Die von dem Decision Tree generier- 
ten Label werden für die Implementierung des Algorithmus als wahre 


Intention des Fahrers angenommen. 


5.2.2 Verwendete Features 


Aus den 91 vorausgewählten und potentiell relevanten Signalen als Fea- 
tures für die Fahrerintentionserkennung (siehe Anhang B.2) werden die 
wichtigsten Features ausgewählt. Dies ist neben der Reduktion der Kom- 
plexität, was schnellere Trainings- und Klassifikationszyklen ermöglicht, 
auch für die Sicherheit von datenbasierten Algorithmen notwendig (vgl. 
Kapitel 3.4). 


Bevor passende Features für das neuronale Netz ausgewählt wer- 
den, werden diese vorverarbeitet. Die Features LWI_Lenkradwinkel 
und LWI_Lenkradw_ Geschw beschreiben jeweils den Absolutwert 
des Lenkradwinkels sowie der Lenkradwinkelgeschwindigkeit und 
werden unabhängig von deren Vorzeichen LWI_VZ_Lenkradwinkel 
und LWI_VZ_Lenkradw_Geschw aufgezeichnet. Durch Zusammenfas- 
sen der beiden Signale mit dem jeweiligen Vorzeichen werden neue, 
vorzeichenbehaftete Features gebildet. Die zehn diskreten Signale 
BV2_Obj_X_Klasse geben die Klasse des erkannten Verkehrsteilneh- 
mers für eines der zehn Objekte wieder. Diese Signale unterscheiden 
13 verschiedene Verkehrsteilnehmertypen. Für den hier vorgestellten 
Algorithmus ist die Information ausreichend, ob ein motorisiertes 
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Fahrzeug (MOT, z.B. PKW, Motorrad) oder schwacher Verkehrsteil- 
nehmer (VRU, vulnerable road user, z.B. Fußgänger, Radfahrer) er- 
kannt wird. Deshalb wird jedes der zehn Merkmale durch zwei binäre 
Features CamObjX_MOT und CamObjX_VRU ersetzt. Die Signale 
VZE_Verkehrszeichen_X beinhalten die diskrete Information, welches 
Verkehrszeichen jeweils erkannt wird. Da in dieser Arbeit die meisten 
Verkehrszeichen irrelevant sind (z.B. Baustelle, Weghinweis-, Park- 
hinweisschilder), wird das Signal durch ein binäres Feature für die 
Erkennung von fußgängerrelevanten Verkehrszeichen ersetzt (Zebra- 
streifen, Warnhinweis Fußgänger). Durch diese Schritte erhöht sich die 
Anzahl der potentiell relevanten Features von 91 auf 99. 


Mit einem Verfahren nach Ruck et al. [191] werden die zu verwenden- 
den Features mit Hilfe eines ANNs ausgewählt. Weil das Netzwerk 
ausschließlich zur Wahl der relevanten Features verwendet wird, ist eine 
flache Architektur ausreichend. Hierfür werden zwei verdeckte Schich- 
ten mit 50 und 20 Neuronen, jeweils mit logistischen Sigmoidfunkionen 
als Aktivierungsfunktion sowie einer Eingangsschicht mit variabler Grö- 
ße verwendet. Die Anzahl der Eingänge wird während der iterativen 
Merkmalsauswahl verändert. Die Ausgangsschicht enthält fünf Neuro- 
nen für die im Random Forest verwendeten Features (vgl. Kapitel 5.3). 
Die unterschiedlichen Eingangsgrößen erstrecken sich über verschiede- 
ne Größenordnungen, weshalb die erlernten Gewichte unterschiedlich 
hohe Auswirkungen auf den Ergebnisvektor haben. Deshalb werden 
alle Eingänge mit Hilfe einer Tanh Normalisierung vorverarbeitet (vgl. 
Kapitel 2.4.3). 


Nach Ruck et al. [191] wird mit den gespeicherten Aktivierungen jeder 
Schicht des oben beschriebenen Netzwerks und der Zuhilfenahme der 
Kettenregel der Einfluss A; eines jeden Features j auf den Ausgangsvek- 
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tor y bestimmt. Aus der logistischen Sigmoidfunktion berechnet sich die 
Ableitung dieser in Neuron a und Schicht b folgendermaßen [191]: 


Sab = Xab(1 BE Xab) (5.5) 


Xap ist der Ausgang des Neurons a in Schicht b. Damit gilt für das oben 
beschriebene Netzwerk und Ausgangsneuron i sowie Eingangsmerkmal 


fi; 


mn 


A = ĝi3 L W ni3ôm2 L Wrm26nt Win (5.6) 
J m n 

Hierbei stellt W.;, das verbindende Gewicht zwischen den Neuronen 

cin Schicht b — 1 und d in Schicht b dar. Damit lässt sich der Einfluss 

eines Features auf eine Ausgangsgröße bestimmen. Um den gesamten 

Einfluss eines Features j zu bestimmen wird A; für Datenvektoren x in 

einem Datensatz S folgendermaßen berechnet [191]: 


OV; 
A= Elaz EW) (5.7) 


xES i 


W ist dabei die Gewichtsmatrix des Netzwerks. 


Um die Relevanz der einzelnen Features für den Ausgang bewerten 
zu können, werden sie mit drei weiteren Merkmalen verglichen. Diese 
sind eine Konstante 1, ein gaußssches und ein weißes Rauschen. Das 
Netzwerk wird in jedem Iterationsschritt zehnmal trainiert, um Initiali- 
sierungseffekte zu minimieren. Immer wenn ein Feature gemittelt über 
diese zehn Durchläufe einen signifikant größeren Einfluss A j auf den 
Ausgangsvektor vorweist (t-Test; a = 0,95; p < 0,05), wird es fiir den 
nächsten Iterationsschritt berücksichtigt. Zusätzlich soll der mittlere 
Rang des Features höher sein als jeder der Referenzmerkmale. Als rele- 
vant werden die Features bezeichnet, die diese beiden Kriterien in jedem 
Durchlauf erfüllen. 
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Das beschriebene Verfahren wird auf einen Teil des Datensatzes ange- 
wendet und es konvergiert nach vier Iterationsschritten. Fünf verschie- 
dene Prädiktionshorizonte von 1s bis 10s werden untersucht, um eine 
größere Menge relevanter Features zu erhalten. Die oben beschriebenen 
Bedingungen müssen für mindestens einen der Zeithorizonte erfüllt 
sein, wodurch letztlich 22 Signale als relevant gekennzeichnet werden. 
Die Ergebnisse sind in Tabelle 5.1 dargestellt. Der MSE steigt über die 
vier Iterationsschritte im Mittel um 4,76%, was mit der Verringerung 
der Features und damit der dem Netzwerk zur Verfügung stehenden 


Informationen zusammenhängt. 


Tabelle 5.1: 
Feature Auswahl mittels ANN, nach [182] 


Iteration Feat. MSE,, MSE,5, MSE3, MSE;; MSEys 


1 99 0,0116 0,0173 0,0299 0,0386 0,0501 
2 32 0,0117 0,0174 0,0302 0,0391 0,0511 
3 26 0,0118 0,0179 0,0305 0,0398 0,0522 
4 22 0,0122 0,0182 0,0308 0,0406 0,0528 


Für die zweite Stufe des Algorithmus (siehe Kapitel 5.3) werden fünf 
Features als Eingangsgröße ausgewählt. Diese sind Geschwindigkeit, 
Bremsdruck, Lenkradwinkel sowie Längs- und Querbeschleunigung, 
welche in den oben beschriebenen Iterationsschritten über alle Prädik- 
tionshorizonte stets sehr relevante Merkmale darstellen. Diese werden 
deshalb als Ausgangsgröße des RNN und Eingang für den Random 
Forest verwendet. Zusätzlich werden dem ausgewählten Random Forest 
noch Minimum, Maximum, Mittelwert und Standardabweichung dieser 
Signale zur Verfügung gestellt. 
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5.2.3 Durchschnittliche Geschwindigkeitsprofile an 
Zebrastreifen 


Der aufgebaute Datensatz für das Vortrainieren aus der rainCOAT Da- 
tenbank enthält Fahrprofile verschiedener Fahrer in der unmittelbaren 
Nähe von Zebrastreifen. Diese ermöglichen einen Einblick in das durch- 
schnittliche Fahrverhalten bei Anwesenheit von Fußgängern, wobei vor 
allem Geschwindigkeitsprofile das Vorgehen der Fahrer verstehen lassen. 
226 zufällig ausgewählte Datensequenzen, die einen Anhaltevorgang an 
Zebrastreifen beinhalten, werden für die Analyse der durchschnittlichen 
Geschwindigkeitsprofile manuell gelabelt. Dazu wird ein Punkt (A) mar- 
kiert, bei dem das Fahrzeug beginnt zu verzögern und ein Punkt (B), 
welcher die minimale Geschwindigkeit des Fahrmanövers kennzeichnet 
(siehe Abbildung 5.5). In Abbildung 5.5 ist zusätzlich eine graue Hilfsli- 
nie für 7 kmh”! eingezeichnet. Diese Geschwindigkeitsschwelle wird in 
Kapitel 5.1.2 als Stopp-Bedingung definiert. 


Die analysierten Zeitreihen zeigen, dass Fahrzeuge von Startpunkt (A) 
innerhalb von 8,195 auf ihre minimale Geschwindigkeit in Endpunkt 
(B) verzögern und dabei eine mittlere Strecke von 47,41 m zurücklegen. 
Dies stimmt mit Ergebnissen von Schneemann und Gohl [12] sowie von 
Värhelyi [192] überein. Die durchschnittliche Startgeschwindigkeit in 
Punkt (A) beträgt 32, 70 kmh”! und die mittlere Minimalgeschwindig- 
keit 5,05 kmh!. Eine Verteilung der minimalen Geschwindigkeiten an 
Zebrastreifen ist bereits in Kapitel 5.1.2 dargestellt (siehe Abbildung 
5.2). Die mittlere Geschwindigkeit beträgt, unter Berücksichtigung des 
Prädiktionshorizonts von 2s, vor dem Erreichen der Stopp-Bedingung 
(siehe oben) 18, 64 kmh! mit einer Standardabweichung von 5, 37 kmh}, 
Dies ist die mittlere Geschwindigkeit, die ein Fahrzeug beim Erkennen 
der Fahrerintention an Zebrastreifen aufweist. 
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Abbildung 5.5: Beispiel fiir Geschwindigkeitsprofil an Zebrastreifen mit Startpunkt (A) 
und Endpunkt (B) der Verzögerung, nach [165] 


5.2.4 Daten fur das Transfer Learning 


Wie in Kapitel 2.8 beschrieben ist es vorteilhaft, bestehende Machine 
Learning Algorithmen an ein spezielles Problem anzupassen. Daher 
sollen das verwendete RNN und der Random Forest (siehe Kapitel 5.3) 
an den aktuellen Fahrer des Fahrzeugs angepasst werden, um nicht nur 
ein durchschnittliches Fahrverhalten zu trainieren, sondern auch indivi- 
duelle Unterschiede zwischen den Fahrern zu berücksichtigen. Dafür 
werden für verschiedene Testpersonen separate Datensätze aufgebaut. 


Nach der Bundesanstalt für Straßenwesen [193] und dem Kraftfahrt- 
Bundesamt [194] beträgt die durchschnittliche Fahrleistung deutscher 
Pkws im Jahr 2014 13.727 km, wobei Landstraßen im Jahr 2018 mit ca. 
45,5% die am häufigsten befahrene Straßenart darstellen. Innerorts wer- 
den lediglich ca. 26,4% der gefahrenen Kilometer zurückgelegt, auf 
Bundesautobahnen ca. 28,1% [193]. Die Referenzstrecke für die Auf- 
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zeichnung personalisierter Trainingsdaten soll sich an dieser Aufteilung 
orientieren, wobei der Streckenanteil innerorts länger gewählt wird, um 
mehr Anhaltefälle bzw. Situationen an Fußgängerüberwegen zu erhalten. 
Dies soll die Skewness (Schiefe) des Datensatzes durch unausgeglichene 
Klassenzuordnungen reduzieren, um schon mit wenigen aufgenomme- 
nen Kilometern möglichst viele der zu untersuchenden Situationen zu 
erhalten. 


Die im Raum Ingolstadt entwickelte Referenzstrecke (siehe Abbildung 
5.6) umfasst insgesamt 36,3 km, wobei der größte Anteil innerorts auf- 
genommen wird (ca. 56,2%). Die Länge der Strecke wird mit Hilfe der 
Elbow-Methode ermittelt (siehe Anhang B.3 Abbildung B.1). Wie die 
durchschnittliche Fahrleistung deutscher Pkws (siehe oben), hat auch 
die Referenzstrecke einen wesentlich höheren Anteil Landstraßen (ca. 
31,0%) als Bundesautobahnen (ca. 12,8 %). 


Für den an einen Fahrer und ein Fahrzeug angepassten Trainingsdaten- 
satz werden die gleichen Features aufgezeichnet, wie oben für die Daten 
des Vortrainierens beschrieben. Als Referenzfahrzeug für die vier Fahrer 
wird ein Audi A8L (2018) eingesetzt. Bei den vier Fahrern handelt es 
sich um eine weibliche und drei männliche Testpersonen. 


Diese Referenzstrecke für den fahrer- bzw. fahrzeugspezifischen Trai- 
ningsdatensatz umfasst sechs Zebrastreifen, 47 Ampeln, neun Über- 
querungshilfen für Fußgänger und fünf Kreisverkehre. In dieser Arbeit 
ist ein fahrer- bzw. fahrzeugspezifischer Datensatz als ein Datensatz 
definiert, welcher für jeweils einen Fahrer mit einem Fahrzeug aufge- 
nommen wird. Mit zusätzlich 22 Situationen in denen ein Fußgänger- 
bzw. Fahrradweg gekreuzt wird, sind in dieser Referenzstrecke 94 Situa- 
tionen enthalten, in denen der Fahrer potentiell mit Fußgängern bzw. 
schwachen Verkehrsteilnehmern in Kontakt treten kann. Lediglich bei 
den Überquerungshilfen hat der Fußgänger formell keinen Vorrang vor 
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Abbildung 5.6: Referenzstrecke zur Aufzeichnung von personalisierten Trainingsdaten 
[195] 


dem sich annähernden Fahrzeug. Beim Fahren dieser Referenzstrecke 
halten die vier Fahrer durchschnittlich ca. 100-mal an. 


Um den an den Fahrer und das Fahrzeug angepassten Algorithmus zur 
Fahrerintentionserkennung für den jeweiligen Fahrer testen zu können, 
wird eine Referenzstrecke zur Aufnahme von Testdaten entwickelt, die 
ausschließlich innerorts verläuft (siehe Abbildung 5.7). Dies ist deshalb 
besonders wichtig, weil Falsch-Positive im Gegensatz zu Richtig-Positive 
(RPs) ein Sicherheitsrisiko für andere Verkehrsteilnehmer darstellen (vgl. 
Kapitel 5.1.2) und Anhaltefälle überwiegend innerorts zu beobachten 
sind. Zusätzlich können außerorts durch den Regelsatz in der dritten 
Stufe des Algorithmus (vgl. Kapitel 5.3) kaum FPs auftreten. 


Die Referenzstrecke für die Testdaten enthält fünf Zebrastreifen, elf Am- 
peln und zwei Situationen in denen ein Fußgänger bzw. Fahrradweg 
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Abbildung 5.7: Referenzstrecke zur Aufzeichnung von personalisierten Testdaten [195] 


gekreuzt wird. Damit besteht insgesamt 18 Mal die Möglichkeit mit 
Fußgängern bzw. schwächeren Verkehrsteilnehmer zu interagieren. Die 
Referenzstrecke für die Testdaten ist 3,3 km lang und überlappt sich auf 
864 m mit der Trainingsstrecke. In diesem Bereich sind nur sehr wenige 
Interaktionsmöglichkeiten mit Fußgängern. Weil die Strecke zusätzlich 
mit einem zeitlichen Versatz von einigen Minuten gefahren wird, sind 
die Situationen und damit die aufgenommen Daten ausreichend unter- 
schiedlich, um einen verlässlichen Testdatensatz aufzubauen. 


Beim Aufzeichnen der fahrer- und fahrzeugspezifischen Daten sind Un- 
terschiede in den Fahrweisen der Fahrer zu beobachten. Während Fahrer 
1,3 und 4 über die gesamte Referenzstrecke sehr vorausschauend fahren, 
ist für Fahrer 2 ein anfangs unsicheres und hektisches Fahrverhalten zu 
beobachten. Nach einer Eingewöhnungsphase von ca. zehn Kilometern 
ändert sich dessen Fahrweise deutlich und der Proband fährt ab diesem 
Zeitpunkt ebenfalls vorausschauend. 


Die Vorverarbeitung der Datensätze und das Labeling erfolgen analog 
wie für das Vortrainieren beschrieben. 
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5.2.5 Normalisierung der verwendeten Features 


Wie in Kapitel 2.4.3 beschrieben, wird empfohlen, die verwendeten 
Features zu normalisieren, weshalb sie wahlweise mit einer Min-Max 


bzw. Tanh Normalisierung vorverarbeitet werden. 


Tabelle 5.2: 
Vergleich Min-Max und Tanh Normalisierung für das RNN57: Absolute Abweichung des 
prädizierten Geschwindigkeitswert zum Label, nach [182] 
Feat.- Normal- 0-10 10-25 25-40 40-55 55-70 >70 D 
satz isierung 


Rz Fee] Pl [ee [2 [ee 
h h h h h h 
keine 6,65 3,92 1,77 1,04 1,47 7,44 2,15 
keine 5,92 3,34 1,99 1,47 1,42 6,06 2,22 
Min-Max 1,66 1,32 0,87 0,69 0,84 1,26 0,90 
Min-Max 2,07 1,48 0,93 0,73 0,87 1,35 0,97 
Tanh 2,53 1,79 1,20 1,49 3,33 18,54 2,45 
2 Tanh 2,13 1,79 1,08 1,18 4,89 21,02 2,58 


Testbeispiele [%] 5,2 10,0 27,6 39,9 13,1 4,2 


= wp = wp = 


Tests mit dem RNN57 (siehe Anhang B.4) sowie mit zwei verschiedenen 
Featureauswahlen und fiir die beiden Normalisierungsverfahren bzw. 
ohne Normalisierung zeigen, dass eine Min-Max Normalisierung stets 
genauere Ergebnisse liefert als eine Tanh Normalisierung. Diese Ergeb- 
nisse sind in Tabelle 5.2 dargestellt. Deshalb wird trotz der Einschran- 
kung, dass die meisten Testbeispiele bei relativ hohen Geschwindigkei- 
ten zwischen 25 und 55 kmh! liegen, fiir die weitere Implementierung 
eine Normalisierung der Daten mittels Min-Max Verfahren durchge- 
führt. 
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5.3 Aufbau des Algorithmus 


Wie in Kapitel 3.4 beschrieben können Machine Learning Algorithmen 
mit einer End-To-End Architektur kaum interpretiert werden und sind 
daher für sicherheitsrelevante Anwendungen nicht zu verwenden. Um 
den Algorithmus wie oben beschrieben absichern zu können, wird dieser 
in einzelne Stufen mit jeweils abgegrenzten Aufgaben unterteilt. Dabei 
wird der aus dem Algorithmus Design bekannte Divide-and-Conquer 
Ansatz gewählt, bei dem jedes Problem rekursiv in kleinere Subproble- 
me unterteilt wird. Diese sind einzeln einfacher zu lösen und werden 
anschließend wieder kombiniert, um das Originalproblem abzubilden 
[143]. Eine Interpretation des Algorithmus könnte für jeder der drei 
Stufen einzeln erfolgen. Der Algorithmus lässt sich wie in Abbildung 
5.8 dargestellt in drei Stufen unterteilt. 


Stufe 1 Stufe 2 Stufe 3 
© 
Ne 2 
T F 
= 2 
a =; 
= aw 
K R = 
5 £ 
= E 
A g 
# z 
© 3 
© E 
a € 
Random Forest Regelsatz 8 
Eingangsdaten Prädizierte Zeitreihe Fahrerintention Prädiktion 
(Fahrer möchte Anhalten) (Fahrzeug hält an) 


Abbildung 5.8: Aufbau des Algorithmus zur Fahrerintentionserkennung in drei Stufen, 
nach [164] 
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5.3.1 Stufe 1: Prädiktion von Zeitreihen 


Recurrent Neural Networks, insbesondere LSTMs sind für die Analyse 
sequentieller Daten und das Modellieren von zeitlichen Zusammenhän- 
gen geeignet (vgl. Kapitel 2.6 und Kapitel 3.5) und werden daher für 
die Prädiktion einzelner Features der Fahrerintentionserkennung einge- 
setzt. Das Netzwerk für die Prädiktion von Zeitreihen wird aus mehr 
als 70 verschiedenen Netzwerken ausgewählt (siehe Anhang B.4). Dafür 
werden zunächst sieben RNNs anhand der von ihnen erreichten MSE 
auf einen Testdatensatz ausgewählt. Anschließend werden mit diesen 
Netzwerken verschiedene Tests zur Robustheit gegenüber Datenaus- 
wahl und Normalisierung durchgeführt, um über eine Rangliste das am 
besten geeignetste RNN auszuwählen (vgl. Höß [182]). Die Architektu- 
ren unterscheiden sich in Schichtanzahl, -aufbau und Eingangs- bzw. 
Ausgangsdaten. Das für diese Arbeit ausgewählte RNN ist in Abbildung 
5.9 dargestellt. 


Das Netzwerk aus Abbildung 5.9 besteht aus vier LSTM und zwei FC 
Schichten. Die vier LSTM Schichten mit jeweils 64 Zellen bzw. Zellzu- 
ständen dienen dazu, die Sequenz der Eingangsdaten zu verarbeiten 
und zeitliche Zusammenhänge zu erstellen. Mit Hilfe dieser zeitlichen 
Zusammenhänge und der FC Schichten werden die Werte der fünf Aus- 
gangssignale im Prädiktionshorizont von 2s vorhergesagt. Die erste 
LSTM Schicht verarbeitet sequentiell 35 Zeitschritte der Eingangsvekto- 
ren, alle nachfolgenden rekurrenten Schichten verarbeiten die Ausgänge 
der jeweils vorhergehenden. Auch diese umfassen 35 Zeitschritte mit 
Vektoren der Länge 64, welche durch die Anzahl der Zellzustände pro 
Schicht festgelegt wird. Die erste FC Schicht besteht aus 128 Neuronen 
und verarbeitet alle Eingangsdaten sowie die Ausgangsvektoren der vier 
LSTM Schichten des letzten Zeitschritts. Der Ausgangsvektor der Länge 
128 dieser ersten FC Schicht dient als Eingang für die letzte Schicht. 
Hier werden 25 Werte prädiziert, welche als jeweils fünf Zeitschritte 
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Abbildung 5.9: Aufbau des DNN in Stufe 1, nach [164] 


im Prädiktionshorizont für die fünf Ausgangssignale (siehe Kapitel 5.2) 
interpretiert werden können. Das Netzwerk entspricht dem RNN72 aus 
Anhang B.4. 


Das RNN verwendet dabei für jedes der 22 ausgewählten Features (siehe 
Kapitel 5.2) 35 Zeitschritte bzw. 3,5 s als Eingangsdaten. Diese Lange der 
Eingangssequenz weist im Bereich von 0,55 bis 6s die niedrigste MSE 
auf (siehe Anhang B.5, Abbildung B.2). Die Ausgangslänge für jedes 
Signal beträgt 5 Zeitschritte (siehe grüne Zeitschritte in Abbildung 5.3), 
wobei für die Fahrerintentionserkennung in Stufe 2 zusätzlich der letzte 
bzw. aktuelle Zeitschritt der Eingangsdaten (siehe roter Zeitschritt in 
Abbildung 5.3) betrachtet wird. 

Eine weitere Analyse verschiedener Aktivierungsfunktionen mit dem 
zufällig ausgewählten Testdatensatz von Fahrer 4 zeigt, dass eine Kom- 
bination aus Tangens hyperbolicus und logistischer Sigmoidfunktion die 
besten Ergebnisse liefert. Die Auswahl des Testdatensatzes erfolgt dabei 
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zufällig. Tabelle 5.3 verdeutlicht, dass die RPRs für diese Kombination 
sowohl nach Stufe 2 als auch nach Stufe 3 am höchsten sind, während 
die FPRs ebenfalls besser oder ähnlich zu den anderen Aktivierungs- 
funktionen sind. Die Test-MSE ist für die Kombination aus Tangens 
hyperbolicus in LSTM Schichten und logistische Sigmoidfunktion in FC 
Schichten mit 3,16 - 1074 am höchsten, doch liegt sie damit nur ca. 1,0% 
unwesentlich über der minimalen Test-MSE von 3,13 - 1074. Auch die 
Trainingsdauer bzw. Anzahl der notwendigen Trainings-Epochen liegt 
mit 47 lediglich 4,4% über dem schnellsten Training (45 Epochen). Die 
Anzahl der Trainings-Epochen spielt hier nur eine untergeordnete Rolle 
und kann je nach Initialisierung der Gewichtematrix variieren. Damit 
sind hier bei erneuten Tests andere Anzahlen der Trainingsepochen zu er- 
warten, während die Genauigkeitsmaße nahezu konstant bleiben sollten. 
Die mit Abstand schlechtesten Ergebnisse werden mit einer logistischen 
Sigmoidfunktion für alle Schichten erzeugt. 


Tabelle 5.3: 
Vergleich verschiedener Aktivierungsfunktionen für das aufgebaute RNN und einen 
ausgewählten Testdatendatensatz, nach [184] 


LSTM FC Epochen MSE RPR FPR RPR FPR 


Training Test Stufe 2 Stufe 3 
no) [%] A A A 
Sigm. Sigm. 162 3,13 17,79 4,91 5,00 5,00 
Sigm. Tanh 123 3,14 36,81 5,00 5,00 5,00 
Sigm. ReLu 94 3,15 8,44 4,39 5,00 5,00 
Tanh Sigm. 47 3,16 97,86 4,27 94,29 1,34 
Tanh tanh 143 3,14 86,54 4,79 80,36 0,01 
Tanh ReLu 142 3,13 78,68 4,74 89,29 5,00 
ReLu Sigm. 154 3,14 7,65 491 5,00 5,00 
ReLu Tanh 45 3,16 9,79 4,78 6,07 5,00 
ReLu Relu 46 3,16 72,78 4,92 85,00 5,00 
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Obwohl die Tangens hyperbolicus und ReLU Aktivierungsfunktionen 
für LSTM und FC Schichten in diesem Test gute Ergebnisse erreichen, 
sind sie, anders als in der Literatur vermutet, nicht die effektivsten (vgl. 
Kapitel 2.4.1). Die Ergebnisse hängen, wie in Kapitel 2.3 beschrieben, 
vom verwendeten Datensatz und der zugrundeliegenden Architektur ab 
(vgl. No Free Lunch Theorem). Die Grundlagen aus Kapitel 2.4.1 werden 
insofern bestätigt, als Tangens hyperbolicus Aktivierungsfunktionen 
in der LSTM Schicht zu höheren RPRs und niedrigeren FPRs führen. 
Außerdem bestätigen die Ergebnisse, dass bei Verwendung einer ReLU 
die Klassifikation negativ beeinflusst werden kann. Die Test-MSE ist bei 
allen Kombinationen der Aktivierungsfunktionen sehr ähnlich, obwohl 
die RPRs und FPRs stark variieren. Dies hängt vermutlich damit zusam- 
men, dass die MSE ein kumuliertes Genauigkeitsmaß darstellt, während 
die RPRs und FPRs verschiedene Eingangsmerkmale unterschiedlich 
hoch gewichtet einbeziehen. Dadurch können auch niedrigere MSEs zu 
größeren Fehlern in der Prädiktion führen. Die Klassifikationen nach der 
dritten Stufe mit RPRs und FPRs von jeweils 5,00 %, sind realistische 
Interpolationen aus der Receiver Operating Characteristic (ROC)-Kurve. 
Alle Punkte der ROC-Kurve liegen im Koordinatenursprung oder bei 
jeweils 100 %. Dies bedeutet, dass, unabhängig von der verwendeten 
Schwelle im Random Forest, alle Ergebnisse in den beiden Extrempunk- 
ten der ROC-Kurve liegen. Derartige Ergebnisse treten insbesondere bei 
kleinen Datensätzen auf. Weil andere Klassifikatoren trotzdem sinnvolle 
Resultate aufweisen, zeigt dies, dass die Klassifikatoren mit einer RPR 
und FPR von jeweils 5,00 % für das untersuchte Problem ungeeignet 
sind. 


5.3.2 Stufe 2: Fahrerintentionserkennung 


Die Fahrerintentionserkennung, also die Prädiktion, ob ein Fahrer anhal- 
ten möchte, soll mit Hilfe eines Random Forest durchgeführt werden, da 
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diese komplexe Modelle abbilden können und trotzdem interpretierbar 
sind (vgl. Kapitel 2.7 und 3.4). Außerdem kann mittels Random Fo- 
rests eine Regression durchgeführt bzw. eine Klassifikationsgenauigkeit 
ausgegeben werden, wodurch die Prädiktion über einen Schwellwertpa- 
rameter eingestellt werden kann. 


Die Architektur unterschiedlicher Random Forests unterscheidet sich in 
der Anzahl der verwendeten Bäume und deren Tiefe. Um diese beiden 
Parameter einstellen zu können, wird ein Trainingsdatensatz eines zufäl- 
lig ausgewählten Fahrers (Fahrer 4) eingesetzt. Das Labeling erfolgt wie 
in Kapitel 5.2 beschrieben. Für das Trainieren und Testen werden die 
oben genannten fünf Signale mit deren jeweiligen Minimum, Maximum, 
Mittelwert und Standardabweichung über die ausgewählte Zeit von 
2s verwendet (vgl. Kapitel 5.2.2). Dieser Zeitbereich wird aus den fünf 
zu prädizierenden Werten und dem letzten Wert vor der Prädiktion 
abgedeckt. In Abbildung 5.3 sind diese durch die grünen und den roten 
Datenpunkt dargestellt. 


Mit Hilfe der Grid-Search (Rastersuche) Suchmethode zur Hyperpara- 
meteroptimierung (vgl. Goodfellow et al. [39]) werden unterschiedliche 
Random Forests getestet, um den für diese Anwendung am besten geeig- 
netsten zu finden. Dafür wird der Datensatz in 80% Trainingsdaten und 
20% Validierungsdaten geteilt, um anschließend jeden Random Forest 
mit den Trainingsdaten zu trainieren. Der Schwellwertparameter wird so 
eingestellt, dass die maximale FPR 1 % beträgt. Die dabei resultierenden 
RPRs sind in Abbildung 5.10 dargestellt. 


Abbildung 5.10 zeigt, dass eine Tiefe von zehn mit insgesamt 30 Bäumen 
die beste RPR ergibt. Diese beträgt im ausgeführten Beispiel 96,9 %. 
Außerdem ist in Abbildung 5.10 zu sehen, dass eine geringe Anzahl 
an Bäumen oder flache Strukturen zu einer schlechten Modellierung 
der Fahrerintention führen. Dennoch garantiert eine steigende Anzahl 
an Bäumen oder eine tiefere Architektur keine stetig steigenden RPRs. 
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Abbildung 5.10: Grid-Search für den am besten geeignetsten Random Forest, nach [183] 


Darüber hinaus steigt mit der Komplexität der Architektur des Random 
Forests auch der Rechenaufwand zur Bestimmung der Fahrerintention. 
Aus diesen Gründen soll für alle weiteren Betrachtungen ein Random 
Forest bestehend aus 30 Bäumen mit einer Tiefe von zehn verwendet 
werden. 


5.3.3 Stufe 3: Entscheidung über das Anhalten 


Die dritte Stufe des Algorithmus zur Fahrerintentionserkennung dient 
dazu, aus der Intention des Fahrers anzuhalten eine Aussage zu erhalten, 
ob das Fahrzeug wirklich anhalten wird. Dazu wird die Fahrerinten- 
tion mit der Bedingung v < 7kmh”! in einer einfachen Regel UND- 
verknüpft. Möchte der Fahrer anhalten, wird bei Unterschreiten der 
Geschwindigkeit von 7kmh! ein Stopp prädiziert. Als Geschwindig- 
keitswert wird die in 2 s prädizierte Geschwindigkeit eingesetzt. 
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Durch diese UND-Verknüpfung im Regelsatz ist die Entscheidung direkt 
nachzuvollziehen und zu interpretieren, was für die Absicherung daten- 
basierter Algorithmen hilfreich ist. Zusätzlich verringert diese Regel die 
Anzahl der FPs, welche in den schwierig zu prädizierenden Übergangs- 


phasen zwischen der Fahrerintention ,,Weiterfahren” und „Anhalten‘ 


auftreten können. 


5.4 Training des entwickelten Algorithmus 


Das Training des entwickelten Algorithmus erfolgt wie in Kapitel 2.8 
beschrieben in zwei Schritten. Beim Vortrainieren wird ein allgemei- 
ner Datensatz für die Fahrerintentionserkennung verwendet, während 
beim Nachtrainieren fahrer- bzw. fahrzeugspezifische Daten eingesetzt 
werden. 


Für das Vortrainieren des Algorithmus wird der dafür entwickelte Da- 
tensatz zufällig in 80 % Trainings- und 20 % Validierungsdaten aufgeteilt 
und damit anschließend das RNN sowie der Random Forest trainiert. 
Die Initialisierung der Gewichte des neuronalen Netzwerks in Stufe 
1 erfolgt dabei zufällig. Jede Stufe bzw. der jeweils zugrundeliegende 
Machine Learning Algorithmus wird unabhängig von den anderen Stu- 
fen optimiert. Die trainierten Modelle des RNNs und Random Forests 
werden zusammen mit der Regel aus Stufe 3 in einem Prädiktionspfad 
seriell verschaltet. Im Testpfad zur Überprüfung der Klassifikationser- 
gebnisse mit einem separaten Datensatz werden die gelabelten Daten der 
Zeitreihenprädiktion direkt mit dem generalisierten Regelsatz der Stufe 
2 sowie der Stufe 3 verarbeitet. Durch Gegenüberstellen des Prädiktions- 
und Testpfads kann der Trainingserfolg und die Testgenauigkeit über- 
prüft werden. Nach Abschluss des Trainings ist der Algorithmus für die 
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Fahrerintentionserkennung auf einen allgemeinen Datensatz bzw. einen 
durchschnittlichen Fahrer und ein Fahrzeug angepasst. 


Der Einfluss der zufälligen Initialisierung des RNNs ist wie in [164] ge- 
zeigt sehr gering. Die RPR ändert sich bei konstanter FPR und gleichblei- 
bendem Netzwerk- und Datensatzaufbau weniger als 0,1%, während 
die Test-MSE in fünf Trainingsdurchläufen um max. 1,27 % variiert. Die- 
ser geringe Einfluss der Initialisierung kann für weitere Untersuchungen 


vernachlässigt werden. 


In Kapitel 2.4.2 wird der erwartete Verlauf der Lernkurven für Trainings- 
und Validierungsdaten skizziert, welcher auch beim Training des ent- 
wickelten Algorithmus zu beobachten ist (siehe Abbildung 5.11). Die 
Trainings- und Validierungs-MSEs verlaufen besonders zu Beginn des 
Trainings sehr ähnlich. Die Tendenz der Trainingskosten ist stetig fal- 
lend, während die Kurve der Validierungskosten in der Overfitting Zone 
abflacht und das globale Minimum von Epoche 65 nicht mehr erreicht. 
Das Training des Algorithmus wird daher durch ein Early Stopping 
nach 80 Epochen abgebrochen, nachdem sich die Validierungs-MSE in- 
nerhalb von 15 Epochen nicht mehr verbessert (vgl. Kapitel 2.4.2). Das 
aus Epoche 65 optimal generalisierte Netzwerk wird abgespeichert und 


in späteren Analysen verwendet. 


Das Nachtrainieren erfolgt ähnlich wie das Vortrainieren, wobei die Aus- 
gangssituation ein bereits trainierter Algorithmus ist und nur bestimmte 
Teile des Netzwerkes und des Random Forests angepasst werden. Der 
fahrer- bzw. fahrzeugspezifische Trainingsdatensatz wird zufällig in 
80 % Trainings- und 20 % Validierungsdaten aufgeteilt. Zusätzlich wird 
ein Testdatensatz für das finale Evaluieren des Algorithmus eingesetzt, 
wodurch neben einem Prädiktionspfad auch wieder ein Testpfad besteht. 


Für das Nachtrainieren des RNNs werden unterschiedliche Transfer 
Learning Methoden (vgl. Kapitel 2.8) in Tabelle 5.4 gegeniibergestellt. 
Dabei wird die Verbesserung der MSEs nach Stufe 1 mit einem Transfer 
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Abbildung 5.11: Verlauf der Trainings- und Validierungs-MSEs beim Vortrainieren der 
ersten Stufe, nach [184] 


Learning in einzelnen Schichten gegentiber dem vortrainierten Ergebnis 
dargestellt. Tabelle 5.4 zeigt, dass die Verbesserung durch die jeweilige 
Transfer Learning Methode von den verwendeten Daten abhängt. So 
sind im Durchschnitt für die vier Fahrer das Training der letzten bei- 
den bzw. letzten drei Schichten am besten geeignet, wobei für Fahrer 1 
und 4 das Nachtrainieren aller Schichten die größte Verbesserung unter 
den evaluierten Transfer Learning Methoden aufweist. Zwischen dem 
Transfer Learning in den letzten beiden bzw. drei Schichten ist kaum ein 
Unterschied festzustellen. Deshalb soll, unter zusätzlicher Berücksichti- 
gung des Rechenaufwands, für das in dieser Arbeit beschriebene RNN 
ein Transfer Learning in den letzten beiden Schichten erfolgen. Dem 
Vergleich der verschiedenen Methoden des Nachtrainierens kann au- 
ßerdem entnommen werden, dass das Hinzufügen einer neuen Schicht 
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für alle Fahrer, außer für Proband 3, eine Verschlechterung der MSE 
bewirkt. Dies kann dadurch begründet werden, dass damit die Netz- 
werkarchitektur für die Fahrerintentionserkennung gestört wird und zu 
wenige Daten für das vollständige Anpassen zur Verfügung stehen. Die 
messbare Verbesserung der MSE beim Nachtrainieren der letzten beiden 
Schichten im Vergleich mit der letzten Schicht bestätigt, dass das Anpas- 
sen der interpretierenden FC Schichten zu einer genaueren Prädiktion 
beitragen kann. Der geringe Unterschied zwischen dem Nachtrainieren 
der letzten zwei bzw. drei Schichten zeigt, dass in den LSTM Zellen 
generelle zeitliche Zusammenhänge gelernt werden, während die FC 
Schichten für deren Interpretation zuständig sind. Die zeitlichen Zusam- 
menhänge bleiben für einzelne Fahrer und Fahrzeuge im Vergleich zu 


einem generalisierten Datensatz nahezu gleich. 


Tabelle 5.4: 
Vergleich verschiedener Transfer Learning Methoden und die Verbesserung der MSE durch 
diese [185] 


MSE nach Transfer Learning in Schicht/-en 

alle erste neue letzte letzte2 letzte 3 

A A A HM] 
Fahrer1 —15,10 -12,05 89  —14,58 -1498 -15,00 
Fahrer2 -9,18 -862 12,30 -9,40 -9,58 -—9,58 
Fahrer3 -18,04 -15,30 -6,72 -19,86 -20,57 —20,47 
Fahrer4 -14,63 -12,45 6,38  —13,66 -13,77 —13,94 
D —14,24 -12,10 5,22 —14,37 —14,73 —14,74 


Auch der Random Forest wird mit Hilfe der fahrer- bzw. fahrzeugspezi- 
fischen Daten angepasst. Hierfür wird der generalisierte Entscheidungs- 
baum zum Labeling der Daten erneut trainiert und damit der Random 
Forest für die Stufe 2 erstellt. Damit kann einerseits eine fahrer- bzw. 
fahrzeugspezifische Klassifikation erfolgen, andererseits sind der vor- 
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und nachtrainierte Algorithmus nur noch begrenzt vergleichbar. Dies 
ist vor allem durch die unterschiedlichen Label zu begründen, welche 
eine generalisierte bzw. eine angepasste Wahrheit repräsentieren. Das 
zugrundeliegende richtige Label ist damit abhängig vom Datensatz für 
jeden Fahrer unterschiedlich. 


5.5 Ergebnisse und Diskussion der 
Fahrerintentionserkennung 


Die Ergebnisse der Fahrerintentionserkennung werden in die beiden 
Trainingsschritte des Vor- und Nachtrainierens unterteilt und getrennt 
voneinander betrachtet. Alle Ergebnisse basieren auf dem Datensatz für 
das Vortrainieren, wobei für das Transfer Learning zusätzlich fahrer- 
bzw. fahrzeugspezifische Datensätze eingesetzt werden. Die Trainings-, 
Validierungs- und Testdatensätze werden unabhängig voneinander auf- 
gebaut und überschneiden sich nicht, was eine zuverlässige Bewertung 
des Algorithmus ermöglicht. 


5.5.1 Vortrainierter Algorithmus 


Die vortrainierte Fahrerintentionserkennung erreicht nach 65 Epochen 
in Stufe 2 eine RPR von 93,5% und eine FPR von 4,7%. Nach Stufe 
3 erfolgt eine Klassifikation mit einer RPR von 94,0% und einer FPR 
von 2,8% (siehe Abbildung 5.12). Bei diesen Werten handelt es sich um 
gemessene Punkte der ROC-Kurve, wobei mit einer realistischen Inter- 
polation (vgl. Kapitel 2.3.1) für Stufe 2 bzw. Stufe 3 RPRs von 93,5 % bzw. 
94,1% bei einer FPR von 5 % resultieren. Abbildung 5.12 zeigt eindeutig, 
dass die Klassifikationsgenauigkeit für Stufe 3 stets höher ausfällt als für 
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Stufe 2. Dies liegt daran, dass Klassifikationsfehler bzw. -unsicherheiten 
in Stufe 2 vor allem im Übergang zwischen der Intention des Fahrers 
weiterzufahren bzw. anzuhalten auftreten. Durch die Plausibilisierung 
in Stufe 3 können die Klassifikationsergebnisse über der Geschwindig- 
keitsschwelle eindeutig dem Label ,,Weiterfahren” zugeordnet werden. 
Dabei werden unsichere, häufig falsche, Prädiktionen verworfen und 
nicht als Anhalten klassifiziert. Trotzdem verfehlt der vortrainierte Algo- 
rithmus sowohl nach Stufe 2 als auch nach Stufe 3 die geforderte RPR 
von 95 % bei einer maximalen FPR von 5 % (vgl. Kapitel 5.1.2). 
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Abbildung 5.12: ROC-Kurven des vortrainierten Algorithmus, nach [185] 


Für die ROC-Kurve der Stufe 3 ist bei einer FPR zwischen 0,4% und 
1,3% eine geringe Steigung zu erkennen, was v.a. an der geringen An- 
zahl und ungleichmäßigen Verteilung der Trainingsdaten liegt. Zum 
Testen des vortrainierten Algorithmus werden die Testdaten der vier 
Fahrer verwendet, womit insgesamt ungefähr 4700 Sequenzen zur Ver- 
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fügung stehen. Viele dieser Fälle können mit sehr hoher Sicherheit dem 
Label „Fahrzeug hält nicht an“ zugeordnet werden, weshalb auch der 
Mittelwert der Prädiktion des Random Forest nahe 0 liegt. Viel weniger 
Sequenzen werden eindeutig einem Anhalten zugeordnet, also ungefähr 
dem Wert 1 des Random Forest. Der Bereich zwischen diesen Extrem- 
werten ist durch die geringe Anzahl der Testbeispiele nur ungleichmäßig 
und spärlich belegt. Diese Beobachtung wird durch die Schwelle für das 
Erkennen eines Anhaltens von 7kmh! zusätzlich verstärkt. Dadurch 
stehen hinter jedem Punkt der ROC-Kurve nur eine sehr kleine Anzahl 
von Testbeispielen, wodurch einzelne FNs zu einem Einbruch der RPR 
führen können. 

Die beiden ROC-Kurven aus Abbildung 5.12 zeigen einen stufigen, nicht 
kontinuierlichen Verlauf, was ebenfalls auf die geringe Anzahl von Test- 
daten zurückzuführen ist. Sprünge in den Kurven sind v.a. durch die 
ungleichmäßige Verteilung der Klassifikationsergebnisse der Testbeispie- 
le im Random Forest zu begründen, wobei potentielle Werte nicht oder 
nur sehr gering besetzt sind. Die Anzahl von 30 Entscheidungsbäumen 
im Random Forest spielt keine messbare Rolle, weil das Mitteln der 
prädizierten Wahrscheinlichkeiten der einzelnen Bäume zu einem konti- 
nuierlichen Ausgabewert führt. Diese Umsetzung erfolgt standardmäßig 
in der Python-Bibliothek sklearn. 

Für weitere Auswertungen des vortrainierten Algorithmus nach Stufe 3 
werden aus dem aufgebauten Testdatensatz je 30 Anhaltevorgänge an 
Zebrastreifen und sonstigen Situationen manuell ausgewählt. Diese sons- 
tigen Situationen enthalten u.a. Anhalten an Ampeln, Vorfahrtstraßen 
oder bei Parkvorgängen. Für die Untersuchung der zeitlichen Abhän- 
gigkeit der Prädiktion werden die Sequenzen der Eingangsdaten von 
8,2s vor (vgl. [165]) bis 2s nach dem Anhalten (vgl. Kapitel 5.1.2) ana- 
lysiert. Die manuell gelabelten Punkte der Zebrastreifen und sonstigen 
Ursachen des Anhaltens liegen nachfolgend jeweils bei 0 s. Dieser Punkt 
wird mit Hilfe des Geschwindigkeitsverlaufs bzw. des Minimalwerts 
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der Geschwindigkeit gelabelt. Für alle durchgeführten Analysen der 
RPRs und FPRs in zeitlicher Abhängigkeit zum Zebrastreifen wird ein 
Schwellwert für die Prädiktion von 0, 66 verwendet. Dies bedeutet, dass 
Prädiktionen mit einem Wahrscheinlichkeitswert über 0,66 als Anhalten 
klassifiziert werden. 


Abbildung 5.13 zeigt, dass sich die Klassifikationsgenauigkeit des An- 
haltens an Zebrastreifen von sonstigen Situationen unterscheidet. Bis 
zu einer FPR von 11,8%, und damit im Bereich der Anforderung an 
das System der Fahrerintentionserkennung, ist die RPR der sonstigen 
Anhaltesituationen höher als die an Fußgängerüberwegen, während sich 
dieses Verhältnis über einer FPR von 11,8% umkehrt. Der Datensatz 
für den vortrainierten Algorithmus setzt sich aus zeitlichen Sequenzen 
um Zebrastreifen zusammen. Deshalb ist zu erwarten, dass die RPRs 
der Prädiktion in diesen Fällen höher sind als in anderen Situationen. 
Im Detail setzt sich der Datensatz jedoch aus Teilabschnitten von 60 s 
langen Sequenzen zusammen, jeweils 30s vor und nach dem Erkennen 
des FuSgangeriiberwegs (siehe Kapitel 5.2). Aus diesem Grund sind 
neben dem Anhalten am Zebrastreifen auch sehr viele Anhaltevorgänge 
vor und nach einem Zebrastreifen im Datensatz enthalten, weshalb das 
Anhalten in sonstigen Situationen besser vom Datensatz abgedeckt wird 
und zu höheren RPRs führt. Die ROC-Kurven aus Abbildung 5.13 zeigen 
deutlich schlechtere Klassifikationsgenauigkeiten als die ROC-Kurve 
des selben Algorithmus in Abbildung 5.12. Dies hängt mit der Auswahl 
der Testdaten zusammen. Während für die oben beschriebene Evaluati- 
on Testdaten aus allen Fahrsituationen verwendet werden, werden hier 
(Abbildung 5.13) ausschließlich Anhaltefälle betrachtet. Dadurch entfal- 
len fast alle Testbeispiele mit konstanter Geschwindigkeit, stehendem 
Fahrzeug oder Beschleunigung nach dem Anhalten, wodurch sich die 
Anzahl der RNs und RPs verringert. Damit steigt gleichzeitig die FPR 
und die RPR sinkt (vgl. Kapitel 2.3.1). 


136 


ERGEBNISSE UND DISKUSSION DER FAHRERINTENTIONSERKENNUNG 


Q U, 


Richtig-positiv Rat 


0,1 —-Zebrastreifen | 
— Sonstige 
0 | i | | ii | i | I 
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 


Falsch-positiv Rate 


Abbildung 5.13: ROC-Kurven nach Stufe 3 für Anhalten an Zebrastreifen und sonstige 
Situationen, nach [184] 


Die Abweichung des prädizierten Wahrscheinlichkeitswerts vom dazu- 
gehörigen Label für das Anhalten ist ca. 6,65 vor und 1,4s nach den 
Zebrastreifen minimal (vgl. Abbildung 5.14). In Abbildung 5.14 ist außer- 
dem zu erkennen, dass die Abweichung von Prädiktion und Label 0,7 s 
vor den Zebrastreifen maximal ist. Der zeitliche Verlauf der mittleren Ab- 
weichung wird mit einem gleitenden Mittelwert über zehn Datenpunkte 
bzw. 100 ms geglättet. Trotzdem weist die Abbildung 5.14 ein großes 
Rauschen und einige Ausreißer auf, was auf die geringe Anzahl von 
30 Testbeispielen zurückzuführen ist. Im Bereich von ca. 5s bis 2s vor 
Zebrastreifen ist die Abweichung von Prädiktion und Label sehr hoch 
(vgl. Abbildung 5.14). Dies zeigt unter Berücksichtigung des Prädikti- 
onshorizonts von 2s, dass wenige Sekunden vor dem Anhalten nur eine 
geringere Genauigkeit erreicht werden kann. Der Prädiktionshorizont 
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von 2s führt dazu, dass der Algorithmus zu jedem Zeitpunkt eine Vor- 
hersage der Fahrerintention in 2s durchführt. Damit sind die Prädiktion, 
aber auch das Label und die tatsächlich eintretende Wirklichkeit um 2 s 
zueinander verschoben. Label und Prädiktion liegen damit im gleichen 
Zeitbereich, prädizieren jedoch einen zukünftigen Zustand. In genau 
diesem Zeitbereich ist auch das Aufstellen des Regelsatzes für das auto- 
matisierte Labeln des Datensatzes (vgl. Kapitel 5.2) am schwierigsten, 
weil nicht eindeutig ist, welche Eingangsdaten eine Anhalteintention 
widerspiegeln. Es ist deshalb davon auszugehen, dass in diesem zeitli- 
chen Bereich das Labeling am inkonsistentesten erfolgt und deshalb der 
Algorithmus mit einer geringeren Genauigkeit prädiziert. Die geringe 
Abweichung bei -1,4s kann ebenfalls mit Hilfe des Prädiktionshori- 
zont des Algorithmus erklärt werden. In vielen Fällen liegt hier, wie 
im Bereich vor -5s, eine konstante Geschwindigkeit vor, welche vom 


Algorithmus ebenfalls sehr zuverlässig prädiziert werden kann. 


Die größte Abweichung von Prädiktion und Label ca. 0,7s vor den Ze- 
brastreifen (vgl. Abbildung 5.14) ist auf die Beschleunigung nach dem 
Anhalten und damit verbundene FPs zurückzuführen. Eine Prädiktion 
bei 0,7s vor dem Anhalten bezieht sich mit dem Prädiktionshorizont 
von 2s auf einen Zeitpunkt 1,3s nach dem Anhalten. Zu diesem Zeit- 
punkt beschleunigen die Fahrer in den Testbeispielen wieder, wodurch 
der Algorithmus wegen den vorliegenden Eingangsdaten fälschlicher- 
weise eine Anhalteintention prädiziert. Die entstehende Abweichung 
von Prädiktion und Label bzw. die dafür verantwortlichen FPs können 
in Abbildung 5.15 eindeutig beobachtet werden. Im Bereich von 1,4s 
bis 0,3s vor dem Anhalten wird in diesem beispielhaft ausgewählten 
Fall ein Anhalten prädiziert, obwohl am Ende des Prädiktionshorizonts 
von 2s der Fahrer das Fahrzeug bereits auf eine Geschwindigkeit von 
8,5kmh71 beschleunigt. Die dadurch bzw. systembedingten FPs haben 
in der Praxis keine Auswirkung auf die Anzeige von Zeichen für Fußgän- 
ger an Fußgängerüberwegen, weil das Fahrzeug zu diesem Zeitpunkt 
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Abbildung 5.14: Mittlere Abweichung der Prädiktion vom Label in zeitlicher Abhangig- 
keit zum Zebrastreifen, nach [184] 


tatsächlich noch steht oder gerade erst losfährt. Ein Losfahren wird 
erst leicht verspätet, nach einzelnen Zeitschritten in denen der Fahrer 
beschleunigt, erkannt, wobei auch dies keine Einschränkung für eine 
Fahrzeug-Fußgänger-Kommunikation birgt. Neben diesen zusammen- 
hängenden FPs beim Beschleunigen nach einem Anhaltevorgang, treten 
FPs auch als einzelne Falschklassifikationen auf, die mit Hilfe eines 
Tiefpass-Filters verworfen werden könnten. 


Die Analyse der FPRs in zeitlicher Abhängigkeit zum Zebrastreifen zeigt, 
dass zwischen -1,5s und 0,7 eine sehr ungenaue Klassifikation erfolgt 
(siehe Abbildung 5.16). Dieser Bereich überschneidet sich größtenteils 
mit dem der hohen Abweichung von Prädiktion und Label (vgl. Abbil- 
dung 5.14). Der in Abbildung 5.16 etwas größere Bereich der hohen FPRs 
kann durch eine große Anzahl von RPRs und deren hohen Genauigkeit 
ab -0,3s in Abbildung 5.14 ausgeglichen werden. Die Ausreißer, v.a. 
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beim Verlauf der RPR-Kurve, können wieder durch die geringe Anzahl 
von Testbeispielen begründet werden. Damit zeigt sich für die RPR bis 
ca. 2s vor dem Anhalten eine niedrigere Klassifikationsgenauigkeit als 
nach diesem Zeitpunkt. 
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Abbildung 5.15: Beispiel fiir einen Geschwindigkeitsverlauf und auftretende FPs in zeitli- 
cher Abhängigkeit zum Zebrastreifen, nach [184] 


Dies deutet unter Berücksichtigung des Prädiktionshorizonts darauf hin, 
dass der entwickelte Algorithmus v.a. am Zebrastreifen ein sehr genaues 
Erkennen der Anhalteintention ermöglicht. Die zeitliche Auswertung 
der RPRs bzw. FPRs und der Abweichung von Prädiktion und Label 
zeigt jedoch, dass der Algorithmus neben einer sehr guten Fahrerinten- 
tionerkennung beim Anhalten eine sehr viel schlechtere Prädiktion des 
Beschleunigens erlaubt. Nachdem der Algorithmus ein Anfahren initial 
erkannt hat, ist die Klassifikationsgenauigkeit ab ca. 1s nach dem Anhal- 
ten wieder hoch (vgl. Abbildung 5.14 und Abbildung 5.16). Dies zeigt 
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Zeitins 


Abbildung 5.16: Mittlere RPR und FPR in zeitlicher Abhängigkeit zum Zebrastreifen, nach 
[184] 


das Problem auf, dass ein erneutes Beschleunigens nicht kausal ist und 
dieses deshalb auch nicht frühzeitig vorhergesagt werden kann, was 
insbesondere auf die verwendete Metrik zurückzuführen ist. 


5.5.2 Nachtrainierter Algorithmus 


Der vortrainierte Algorithmus wird wie in Kapitel 5.4 beschrieben mit 
einem Transfer Learning auf fahrer- bzw. fahrzeugspezifische Verhal- 
tensweisen angepasst. Die ROC-Kurven nach Stufe 2 und Stufe 3 des 
Algorithmus sind in Abbildung 5.17 und Abbildung 5.18 dargestellt. Das 
Anpassen der Stufen 1 und 2 des Algorithmus erfolgt dabei mit Daten 
von jeweils einem Fahrer und einem Fahrzeug für vier Testpersonen. 
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Abbildung 5.17 zeigt, dass das Nachtrainieren für Fahrer 4 nach Stufe 2 
im gesamten Bereich zu höheren RPRs führt als der vortrainierte Algo- 
rithmus. Dies gilt auch für Fahrer 1, wobei die realistische Interpolation 
der Punkte der ROC-Kurve zwischen einer FPR von 0,1% und 0,2% 
unter dem allgemeinen Modell liegt. Ab einer FPR von 2,9 % verläuft die 
ROC-Kurve dieses Fahrers mit 96,0 % über der minimal zu erreichenden 
RPR von 95%. Die ROC-Kurve des Fahrers 4 überschreitet die vorge- 
gebene RPR mit 95,3 % bei einer FPR von 1,5 %. Die RPRs der Fahrer 2 
und 3 liegen im gesamten Bereich deutlich unter der des vortrainierten 
Algorithmus. 
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Abbildung 5.17: ROC-Kurven des nachtrainierten Algorithmus nach Stufe 2, angepasst 
an jeweils einen Fahrer und ein Fahrzeug, nach [185] 


Insbesondere die Klassifikationsgenauigkeit von Fahrer 2 liegt über den 
gesamten Bereich weit unter der des vortrainierten Netzwerks. Die Ver- 
schlechterung durch das Anpassen des vortrainierten Algorithmus kann 
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v.a. durch ein ungleichmäßiges Fahrverhalten des Fahrers begründet 
werden und bestätigt damit eine entsprechende Beobachtung während 
der Datenaufnahme. Das Verhalten des Fahrers 2 variiert während der 
Trainingsdatenaufzeichnung auf der Referenzstrecke deutlich. Dadurch 
versucht der Algorithmus, die beiden ersten Stufen auf stark unterschied- 
liche Daten anzupassen, was v.a. durch die geringe Datenanzahl nicht 
möglich ist. Im Gegensatz dazu ist das Fahrverhalten von Fahrer 1 und 4 
sehr konstant über die gesamte Referenzstrecke, wodurch auch das An- 
passen des Algorithmus zu höheren Klassifikationsgenauigkeiten führt, 
als mit dem vortrainierten Algorithmus. Wie auch schon in Abbildung 
5.12 zu sehen ist, zeigen die Verläufe der ROC-Kurven in Abbildung 
5.17 und Abbildung 5.18 einen stufigen, nicht kontinuierlichen Verlauf. 
Dies kann ebenfalls auf eine geringe Anzahl von ca. 1180 Testdaten pro 
Fahrer zurückgeführt werden. 

Der grundsätzliche Verlauf der ROC-Kurven für die Fahrer 1 und 4 der 
Stufe 3 stimmen mit denen der Stufe 2 überein und die RPRs liegen 
über denen des vortrainierten Algorithmus. Die minimale RPR wird für 
beide Fahrer mit 95,4% bzw. 95,6 % bei einer FPR von 2,4% bzw. 1,9% 
überschritten. Die ROC-Kurve des Fahrers 3 verläuft ab einer FPR von 
ca. 2,8% über der des vortrainierten Algorithmus und erreicht bei einer 
FPR von 3,6 % eine RPR von 95,2%. Auch nach der Plausibilisierung in 
Stufe 3 liegen die RPRs des an den Fahrer 2 angepassten Algorithmus 
stets unter der des vortrainierten. 

Dies zeigt, dass mit einer Ausnahme für Fahrer 2 ein Nachtrainieren 
und damit verbundenes Anpassen an fahrer- bzw. fahrzeugspezifische 
Verhaltensweisen zu höheren Klassifikationsgenauigkeiten führen kann. 
Dies gilt insbesondere für das Erreichen der Anforderungen an das Sys- 
tem (vgl. Kapitel 5.1.2), was nur mit Hilfe des Iransfer Learnings möglich 
ist. Für Fahrer 2 verschlechtert sich die Klassifikationsgenauigkeit des 
Algorithmus durch das Anpassen an seine Daten. Dies zeigt, dass erwar- 
tungsgemäß v.a. der zugrundeliegende Datensatz und ein konstantes 
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Abbildung 5.18: ROC-Kurven des nachtrainierten Algorithmus nach Stufe 3, angepasst 
an jeweils einen Fahrer und ein Fahrzeug, nach [185] 


Fahrverhalten für den Erfolg des Transfer Learnings ausschlaggebend 
sind. Für alle ROC-Kurven ist ein stufiger, nicht kontinuierlicher Ver- 
lauf zu beobachten, was mit der geringen Anzahl von Testbeispielen 
begründet werden kann (siehe oben). 


Das Differenzbild der jeweiligen ROC-Kurven von Stufe 3 und Stufe 2 
(siehe Abbildung 5.19) zeigt die Filterwirkung der Geschwindigkeits- 
schwelle von 7 kmh”! in der letzten Stufe. Für den vortrainierten Algo- 
rithmus und den an Fahrer 2 angepassten Algorithmus verbessert diese 
Schwelle die RPRs über den gesamten Bereich. Dies deutet darauf hin, 
dass durch Anwenden der Geschwindigkeitsschwelle unsicher zu klas- 
sifizierende Datenpunkte direkt der Klasse „Weiterfahren” zugeordnet 
werden. Für Fahrer 1 und Fahrer 4 zeigen die Differenzkurven bis zu 
einer FPR von ca. 2,1% bzw. 0,5% einen negativen Wert, wobei dies 
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Abbildung 5.19: Differenzbild der ROC-Kurven von Stufe 3 und Stufe 2 des nachtrainier- 
ten Algorithmus, angepasst an jeweils einen Fahrer und ein Fahrzeug, nach [184] 


mit der realistischen Interpolation der ROC-Kurven fiir die Stufe 3 in 
diesem Bereich zusammenhängt. Für beide Fahrer fällt die Differenzkur- 
ve in Abbildung 5.19 bei höheren FPRs erneut unter den Wert 0. Diese 
Verschlechterung beeinflusst die Klassifikation kaum, weil der optimale 
Arbeitspunkt bereits vorher erreicht wird. Abbildung 5.19 stellt für Fah- 
rer 3 ab einer FPR von ca. 1,9 % positive Differenzen dar. Dies bedeutet, 
dass erst ab einer FPR von ca. 1,9% die Stufe 3 zu einer Verbesserung 
der RPR gegenüber Stufe 2 führt. Wie oben beschrieben erfüllt die ROC- 
Kurve für Fahrer 3 erst ab einer FPR von ca. 3,6 % die Anforderungen 
an das System, weshalb auch diese Verschlechterung durch die Stufe 3 
bis zu einer FPR von ca. 1,9% keinen Einfluss hat. Zusammenfassend 
erhöht die Stufe 3 damit die Klassifikationsgenauigkeit. 


Zusätzlich zur Anpassung der Stufen 1 und 2 des Algorithmus an je- 
weils einen Fahrer und ein Fahrzeug, kann der Algorithmus an ein 
Fahrzeug ohne fahrerspezifische Merkmale angepasst werden. Dafür 
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Abbildung 5.20: ROC-Kurven des nachtrainierten Algorithmus nach Stufe 2, angepasst 
an vier Fahrer und ein Fahrzeug, nach [184] 


wird ein Transfer Learning mit den gesamten Trainingsdaten der vier 
Fahrer durchgefiihrt und mit den zusammengefassten Testdaten dieser 
Testpersonen evaluiert. Nach Stufe 2 zeigen der vor- und nachtrainierte 
Algorithmus einen sehr ähnlichen Verlauf, wobei bis zu einer FPR von 
4,3% der vortrainierte Algorithmus leicht höhere RPRs aufweist (siehe 
Abbildung 5.20). Bei der geforderten maximalen FPR von 5 % liegt die 
RPR des angepassten Algorithmus mit 94,2% über dem vortrainier- 
ten (93,5 %). Die Anforderung an das System wird damit jedoch nicht 
erreicht. 

Nach Stufe 3 des Algorithmus zeigt die ROC-Kurve (siehe Abbildung 
5.21) des fahrzeugspezifisch angepassten Klassifikators einen ähnlichen 
Verlauf wie für Stufe 2. Bis zu einer FPR von 2,4% liegt die RPR des 
vortrainierten Algorithmus fast im gesamten Bereich über der des ange- 
passten. Ab einer FPR von 2, 6 % erfüllt der nachtrainierte Algorithmus 
die Anforderungen an das System mit einer RPR von 95,2%. Zwischen 
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der FPR von 0,2% und 0,7% liegt die RPR des nachtrainierten Algorith- 
mus deutlich unter der Vergleichskurve. 


1 
0,95 


0,8 
0,6 


0,4 


Richtig-positiv Rate 


0,2 


—-Vortrainierter Algorithmus 
—-alle Fahrer 


0 | 1 Í | | 1 T 
0 0,005 0,01 0,015 0,02 0,025 0,03 0,035 0,04 0,045 0,05 
Falsch-positiv Rate 


Abbildung 5.21: ROC-Kurven des nachtrainierten Algorithmus nach Stufe 3, angepasst 
an vier Fahrer und ein Fahrzeug, nach [184] 


Abhängig vom Arbeitspunkt des Algorithmus kann der an fahrzeugspe- 
zifische Daten angepasste Algorithmus den vortrainierten Klassifikator 
nach Stufe 3 in der Klassifikationsgenauigkeit tibertreffen. Die Unter- 
schiede zum vortrainierten Algorithmus sind ab einer FPR von 1% ge- 
ring. Die lediglich kleinen Abweichungen der ROC-Kurven der beiden 
Klassfikatoren nach Stufe 2 erlauben keine eindeutige Aussage dartiber, 
ob eine fahrzeugspezifische Anpassung des Algorithmus möglich ist. 
Auch nach Stufe 3 ist der Unterschied der Klassifikationsgenauigkeiten 
zwischen dem vor- und nachtrainierten Algorithmus zu gering, um eine 
klare deskriptive Tendenz beobachten zu können. 
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5.5.3 Weitere Ergebnisse 


Eine Untersuchung der Trainings-, Validierungs- und Test-MSE erfolgt 
sowohl für das vortrainierte, als auch für die nachtrainierten Netzwerke 
nach Stufe 1 des Algorithmus. Da die Testdaten während des Trainings 
für das neuronale Netzwerk unbekannt sind, ist zu erwarten, dass die 
Test-MSE unter diesen am höchsten ist. Die Validierungs-MSE wird 
ungefähr genauso hoch bzw. geringfügig niedriger erwartet, da diese 
zum Abbruch des Trainings nur teilweise in den Trainingsprozess mit 
einfließt. 


Für die Evaluation der MSEs ergeben sich für drei Fahrer Abweichungen 
von den theoretisch hergeleiteten Größenverhältnissen der Genauigkeits- 
maße. Bei dem vortrainierten und den personalisierten Netzwerken für 
Fahrer 2 sowie für alle Fahrer gemeinsam ist die Trainings-MSE wie er- 
wartet niedriger als die Validierungs-MSE und diese wiederum niedriger 
als die Test-MSE (vgl. Tabelle 5.5). Dies stimmt mit dem Verlauf der MSE 
in Abbildung 5.11 und Goodfellow et al. überein [39]. Die Test-MSEs 
für Fahrer 1 und 3 liegen weit unter der Validierungs-MSE, während 
für Fahrer 4 die Validierungs-MSE niedriger ist als die Trainings-MSE 
(vgl. Tabelle 5.5). Diese Abweichung von den erwarteten Größenverhält- 
nissen hängt vermutlich mit der geringen Menge an Valdierungs- und 
Testdaten zusammen. Schon eine geringe Anzahl ungenau oder falsch 
prädizierter Validierungs- oder Testbeispiele kann hierbei die mittlere 
MSE messbar beeinflussen. Die theoretischen Größenverhältnisse der 
verschiedenen MSEs ergeben sich v.a. bei dem vortrainierten Netzwerk 
und dem auf die Daten aller Fahrer angepasste Netzwerk, bei denen 
jeweils größere Datenmengen zur Verfügung stehen. Die Verbesserun- 
gen der Test-MSE durch ein Transfer Learning in den letzten beiden 
Schichten der Stufe 1 für die jeweiligen Fahrer (vgl. Tabelle 5.4) stimmen 
mit den Ergebnissen in Tabelle 5.5 überein. Die geringste Verbesserung 
ergibt sich bei Fahrer 2, während Fahrer 3 die größte Verbesserung auf- 
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weist. Dadurch resultiert auch für Fahrer 3 die niedrigste Test-MSE der 


an die jeweiligen Fahrer angepassten Netzwerke und für Fahrer 2 die 
höchste. 


Tabelle 5.5: 


Trainings-, Validierungs- und Test-MSE für das vortrainierte und die nachtrainierten 
Netzwerke, nach [184] 


Trainings-MSE Validierungs-MSE Test-MSE 


[10-4] [10-4] [10-4] 
Vortrain. Netzwerk 2,65 3,15 3,16 
Fahrer 1 4,72 8,02 6,75 
Fahrer 2 5,42 5,45 6,93 
Fahrer 3 4,11 4,45 4,10 
Fahrer 4 3,06 1,66 5,00 
alle Fahrer 4,10 4,53 6,63 


Die verschiedenen MSEs des vortrainierten Netzwerks liegen in fast 
allen Fallen unter denen der angepassten Algorithmen (vgl. Tabelle 
5.5). Dies steht im Gegensatz zu den Ergebnissen bei der Analyse der 
ROC-Kurven (siehe oben), kann aber mit einer einfachen Erklärung 
nachvollzogen werden. Das Transfer Learning der nachtrainierten Al- 
gorithmen erfolgt nicht nur in Stufe 1 des Algorithmus, sondern auch 
in Stufe 2, in welcher die Label bzw. der Entscheidungsbaum und der 
dazugehörige Random Forest angepasst werden. Deshalb unterschei- 
den sich die Generierung der Label in Stufe 2 je nach Fahrer bzw. je 
nachdem, ob ein vortrainierter oder angepasster Algorithmus eingesetzt 
wird. Dadurch wird das wahre Label subjektiviert und an den jeweiligen 
Anwendungsfall angepasst, weshalb unterschiedliche MSEs zu konträ- 
ren Ergebnissen der ROC-Kurven führen können. Dies zeigt darüber 
hinaus, dass die angepassten Netzwerke in Stufe 1 größere Prädiktions- 
fehler, aber trotzdem eine sehr hohe Genauigkeit in der Interpretation 
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der Prädiktionen in Stufe 2 aufweisen. Wie genau eine Klassifikation 
des gesamten Algorithmus ist, hängt also von dem Zusammenspiel der 
einzelnen Schichten ab. Eine Korrelation der Test-MSE mit der resul- 
tierenden ROC-Kurve ist für die ähnlichen Datensätze der einzelnen 
Fahrer nicht gegeben. 


Die einzeln auftretenden FPs (siehe oben) weisen darauf hin, dass mit 
Hilfe einer Tiefpass gefilterten Klassifikation, z.B. gleitender Mittelwert 
über drei Zeitschritte, die FPR des Algorithmus leicht verringert werden 
kann. Ein Nachteil eines Tiefpass Filters ist die zeitliche Verzögerung der 
Prädiktion, die je nach Filterlänge unterschiedlich ausgeprägt sein kann. 
Weiter treten FPs häufig beim Losfahren des Fahrzeugs auf (vgl. Abbil- 
dung 5.15 und Abbildung 5.16). Die Genauigkeit der Klassifikation eines 
Anhaltens ist demnach voraussichtlich höher als die kumulierte RPR 
und FPR für das Anhalten und Losfahren des Fahrzeugs. Im Gegensatz 
dazu beziehen die mittleren Werte jedoch auch Fahrten bei konstanter 
und hoher Geschwindigkeit mit ein, welche das Ergebnis durch viele 
RPs und RNs verbessern. 


Jede ROC-Kurve entsteht durch Variation eines Schwellwerts, mit wel- 
chem entschieden werden kann, ob eine Prädiktionswahrscheinlich- 
keit als Anhalten klassifiziert wird oder nicht. Jeder Punkt der ROC- 
Kurve kann also einem bestimmten Schwellwert zugeordnet werden. 
Der Schwellwert soll im vorliegenden Fall so gewählt werden, dass die 
minimale RPR von 95 % und maximale FPR von 5 % eingehalten werden. 
Zusätzlich soll die FPR so klein wie möglich sein, da diese Falschprä- 
diktionen ein Sicherheitsrisiko für alle Verkehrsteilnehmer darstellen 
können. Für das vortrainierte Netzwerk wird daher ein Schwellwert von 
0,77 gewählt. 


Im Vergleich mit den Ergebnissen anderer Arbeiten übertrifft der hier 
beschriebene Algorithmus deren Klassifikationsgenauigkeit deutlich. 
Wie in Kapitel 3.3 beschrieben, wird von Tran et al. [124] und Zhu et 
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al. [129] eine Accuracy von 90% bzw. 80,39% und von Garcia Ortiz 
et al. [130] mit einem Prädiktionshorizont von 2s eine RPR/FPR von 
ca. 65 %/10 % erreicht. Bereits der vortrainierten Algorithmus liegt bei 
gleichem Prädiktionshorizont mit RPR/FPR von 94,0 %/2,8% deutlich 
höher. Die Accuracy ist in diesem Beispiel ca. 96,6% und damit um 
6,6% bzw. 16,2 % höher als in den oben genannten Veröffentlichungen. 


5.6 Untersuchungskritik an der 
Fahrerintentionserkennung 


Die nachfolgende Untersuchungskritik bezieht sich auf die verwendeten 
Daten, das Labeling der Daten und die Vollständigkeit der Evaluation. 


Für die aufgebauten Datensätze sind vor allem die Diversität und Menge 
der Daten wichtige Kritikpunkte. Der Datensatz für das Vortrainieren 
des Algorithmus ist ausschließlich aus Fahrdaten der Breitenerprobung 
von Audi aufgebaut. Alle Fahrer der AUDI AG durchlaufen spezielle 
Fahrertrainings und sind nur begrenzt mit ungeschulten Verkehrsteil- 
nehmern zu vergleichen. Nach manueller Überprüfung zufällig ausge- 
wählter Zeitsequenzen kann jedoch davon ausgegangen werden, dass 
die Ergebnisse mit Kundendatensätzen ähnlich ausfallen würden. 


Des Weiteren sind die Referenzstrecken für das Transfer Learning auf 
den Großraum Ingolstadt begrenzt. Dadurch sind die Ergebnisse dieser 
Arbeit nur eingeschränkt für andere Kulturen und Verkehrsräume gül- 
tig. Bei der geringen Anzahl von vier untersuchten Testpersonen sind 
eindeutig messbare Abweichungen zwischen den Fahrern zu erkennen. 
Lediglich größere Stichproben von Fahrern können ein zuverlässiges 
Ergebnis darüber liefern, ob das Anpassen des Algorithmus die Klassi- 
fikationsgenauigkeit erhöht. V.a. bei der Personalisierung auf je einen 
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Fahrer und ein Fahrzeug zeigen sich eindeutige, deskriptive Tendenzen, 
dass ein Nachtrainieren die Prädiktion verbessert. Dies kann jedoch für 
nur vier Fahrer nicht ausreichend statistisch bestätigt werden. Außerdem 
umfassen v.a. die Daten für das Iesten des nachtrainierten Algorithmus 
nur eine geringe Anzahl von Zeitsequenzen, wodurch die Interpreta- 
tion der Ergebnisse erschwert wird (bspw. stufige ROC-Kurven). Zum 
Training des Algorithmus der Fahrerintentionserkennung an Fußgänger- 
überwegen wird eine geringe Anzahl von Situationen am Zebrastreifen 
eingesetzt. Ähnlich viele Anhaltefälle aus weiteren Gründen werden für 
das Training verwendet, wodurch die Anpassung an Fußgängerüberwe- 
ge nur eingeschränkt erfolgt. 


Das Labeling der Daten bzw. der Aufbau des Regelsatzes mit 39 manu- 
ell erstellten Regeln erfolgt nach einer subjektiven Einschätzung von 
Experten (vgl. Kapitel 5.2.1). Dadurch ist auch die zugrundeliegende 
Wahrheit, ob ein Fahrer anhalten möchte bzw. das Fahrzeug anhalten 
wird subjektiv und generalisiert. Zur Objektivierung dieses Lablings 
könnte eine Expertenbeurteilung jedes Beispiels oder eine Bewertung 
der Beispielsequenzen mittels mehrerer Testpersonen erfolgen. 


Die in dieser Arbeit angestellten Untersuchungen können nicht als voll- 
ständig abgeschlossen betrachtet werden und geben daher lediglich 
einen vorläufigen Forschungsstand wieder. So werden bspw. nicht alle 
in der Literatur bekannten Aktivierungsfunktionen oder im Fahrzeug 
verfügbaren Signale untersucht. Außerdem könnte z.B. die Grid-Search 
für den am besten geeigneten Random-Forest feiner durchgeführt und 
für weitere Tiefen oder Anzahl von Bäumen erweitert werden. In diesem 
Fall sind keine oder nur kleine Verbesserungen zu erwarten. Trotzdem 
könnte durch eine umfassendere, möglichst vollständige Evaluation 
der hier vorgestellte Algorithmus wahrscheinlich verbessert werden. 
Mit dieser Arbeit soll daher kein Anspruch auf Vollständigkeit erhoben 
werden. 
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Durch separates Anpassen jeder Stufe des Algorithmus kann, wie in 
Kapitel 5.4 und Kapitel 5.5.1 gezeigt, ein funktionsfähiger Algorithmus 
entwickelt werden. In Kapitel 5.5 wird gezeigt, dass die Test-MSEs nach 
Stufe 1 nicht mit den Ergebnissen der ROC-Kurven nach Stufe 2 bzw. 3 
korrelieren. Statt jede Stufe des Netzwerks einzeln zu optimieren, könnte 
eine Anpassung der Stufe 1 unter Berücksichtigung von Stufe 2 und 3 
zu einer höheren Klassifikationsgenauigkeit führen. 

Wegen einer starken Datensatzabhängigkeit der Ergebnisse (vgl. Ka- 
pitel 5.4) und den kleinen Testdatensätzen ergeben sich in den oben 
dargestellten Ergebnissen stufige Verläufe der ROC-Kurven oder inkon- 
sistente Zahlenwerte. Eine Möglichkeit, dem entgegenzuwirken, ist der 
Einsatz einer Kreuzvalidierung (siehe Kapitel 2.3.2). Mit Hilfe der un- 
terschiedlichen Aufteilungen von Test- und Trainingsdatensätzen durch 
die Cross-Validation kann ein gemitteltes Ergebnis für die verschiede- 
nen Genauigkeitsmaße erzeugt werden. Damit wird die Verwendung 
eines größeren Testdatensatzes abgelöst. Trotzdem wird in dieser Arbeit 
auf die Tests des entwickelten Algorithmus mittels Kreuzvalidierung 
verzichtet, damit eine eindeutige Trennung zwischen Trainings- und 
Testdatensatz gewährleistet werden kann. Durch die zeitliche Überlap- 
pung von Datensätzen (vgl. Abbildung 5.3) kann diese Trennung nur 
schwer erreicht werden. Mit der gewählten und in dieser Arbeit vor- 
gestellten Implementierung ist die Trennung zwischen Trainings- und 
Testdaten garantiert. 

Zusätzlich können für eine Untersuchungskritik zwei systematische 
Fehler identifiziert werden. Kapitel 5.5.1 zeigt, dass beim Erkennen des 
Anhaltens kaum FPs auftreten, beim erneuten Beschleunigen des Fahr- 
zeugs je nach Fahrverhalten jedoch stets FPs zu beobachten sind. Dies 
wird in den Evaluationen der Prädiktion der Fahrerintention nicht be- 
rücksichtigt und könnte demnach zu niedrigeren FPRs führen. Die beim 
Beschleunigen auftretenden FPs könnten bspw. durch eine Plausibilisie- 
rung mit der Gaspedalbetätigung reduziert werden. Generell ist jedoch 
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anzumerken, dass ein Erkennen der Beschleunigung mit den vorliegen- 
den Daten nicht kausal ist und demnach nicht erkannt werden kann. 
In der Praxis bzw. bei der Anwendung der Fahrerintentionserkennung 
zur Fahrzeug-Fußgänger-Kommunikation ist jedoch keine wahrnehm- 
bare Einschränkung gegeben. Außerdem führt das Personalisieren der 
Entscheidungsbäume für das Labeling der Daten in Stufe 2 zu subjektiv 
angepassten Wahrheiten für jeden Testfahrer. Dies ist generell richtig, 
da jeder Fahrer auch ein anderes Maß für das Labeling ansetzen würde, 
führt jedoch dazu, dass die Ergebnisse nur noch begrenzt vergleichbar 
sind. 


In Kapitel 5.1.2 wird eine Anforderung an das System definiert, bei der 
über einen Prädiktionshorizont von 2s eine RPR von 95 % bei einer FPR 
von 5 % erreicht werden soll. Die personalisierten Netzwerke von Fahrer 
1, 3, 4 und für alle Fahrer gemeinsam erfüllen diese Anforderungen 
nach Stufe 3, trotzdem kann der Algorithmus nicht uneingeschränkt im 
Straßenverkehr eingesetzt werden. Obwohl durch ein Entprellen bzw. 
Filtern der Klassifikation und ausschließliche Prädiktion eines Anhal- 
tens die Anzahl von FPs voraussichtlich verringert werden kann, stellt 
die vorliegende FPR weiterhin ein Risiko für andere Verkehrsteilneh- 
mer dar. Dieses Risiko sollte unbedingt vermieden werden, weshalb die 
angestrebte Anforderung nach Omerbegovic [189] (RPR > 95% und 
FPR < 5%, siehe Kapitel 5.1.2) für den Serieneinsatz der hier vorgestell- 
ten Anwendung als unzureichend sicher eingeschätzt wird. 
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ZUSAMMENFASSUNG UND AUSBLICK 


In diesem Kapitel werden die Ergebnisse aus den Untersuchungen zur 
Fahrzeug-Fußgänger-Kommunikation und Fahrerintentionserkennung 
an Fußgängerüberwegen zusammengefasst. Darüber hinaus werden 
mögliche Umsetzungen in Fahrzeugen aufgezeigt und jeweils ein Aus- 
blick für weitere Evaluationen gegeben. Zum Schluss werden beide 
Komponenten in ein gesamtheitliches Konzept überführt. Durch die 
Fahrerintentionserkennung ist es möglich, bereits beim „manuellen Fah- 
ren” standardisierte Symbole bzw. eindeutige Zeichen darzustellen und 
damit zusätzlich einen großen Teil der Bevölkerung mit der Kommuni- 
kation automatisierter Fahrzeuge vertraut zu machen. Das „manuelle 
Fahren“ wird dabei mit den Stufen 0 bis 2 des automatisierten Fahrens 
definiert, in denen der menschliche Anteil an der Fahraufgabe überwiegt. 
Der Fahrer muss das System mindestens dauerhaft überwachen [9]. 


6.1 Zusammenfassung 


Bereits heute nimmt eine Kommunikation, also der Austausch von Nach- 
richten über einen bestimmten Kanal, im Straßenverkehr eine entschei- 
dende Rolle ein und wird v.a. zum Vermeiden und Minimieren von 
Gefahren oder Unklarheiten eingesetzt. Häufig sind davon Situatio- 
nen betroffen, bei denen sich Fahrzeuge und Fußgänger den Verkehrs- 
raum teilen, z.B. beim Überqueren eines Fußgängerüberwegs oder in 
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Bereichen mit niedriger Fahrzeuggeschwindigkeit. Daneben ist für den 
bevorstehenden Mischverkehr von automatisierten Fahrzeugen und 
herkömmlichen Verkehrsteilnehmern Vertrauen in die neuartige Techno- 
logie unbedingt notwendig und dies erfordert eine Fahrzeug-Fußgänger- 
Kommunikation. Das Visualisieren der Intention, Wahrnehmung oder 
des Zustandes automatisierter Fahrzeuge kann bspw. mittels Lichtzei- 
chen und hierfür entwickelten Leuchtenarrays sowie Displays erfolgen. 
In Kapitel 3 werden v.a. Botschaften zur Interaktion mit Fußgängern an 
Fußgängerüberwegen als wichtig hervorgehoben. So werden Zeichen 
und Farben zur Anzeige eines automatisierten Fahrmodus, des Vorfahrt- 
gewährens für Fußgänger und Erkennen eines Fußgängers untersucht. 
Darüber hinaus konnte in einer Voruntersuchung bereits ein intuitiv 
verständliches Symbol zur Darstellung einer Warnung gefunden wer- 
den, bei welcher der Fußgänger aufgefordert wird die Straße nicht zu 
überqueren. 

Die durchgeführte Voruntersuchung zur Intuitivität von Zeichen und 
Dynamiken zeigt, dass 29 von 30 statischen und dynamischen Zeichen 
nicht intuitiv verständlich sind. Lediglich eines der betrachteten Symbole 
wird von den Probanden im Erstkontakt erkannt (Symbol 27, Abbildung 
6.1). In einer Zuordnung von vorgegebenen Antworten und Zeichen 
werden elf aus 30 Symbolen richtig gedeutet und als verständlich bzw. 
aussagekräftig bewertet. 

Diese Ergebnisse werden in einer Onlinestudie mit 709 Probanden be- 
stätigt. Die Teilnehmer sollen sich dabei in die Lage eines Fußgängers 
an einem Fußgängerüberweg versetzen, den sie überqueren möchten 
während sich ein Fahrzeug annähert. In diesem Zusammenhang wer- 
den Zeichen zur Darstellung eines automatisierten Fahrmodus, Vorfahrt 
gewähren für Fußgänger und Erkennen des Fußgängers ausgewählt. 
Insgesamt werden neun Symbole untersucht, von denen zwei mittels 
offener Antworten im Erstkontakt richtig gedeutet werden. Diese bei- 
den Symbole für das Vorfahrt gewähren für Fußgänger sind bereits 
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aus dem Straßenverkehr bekannt. In der Zuordnung der Symbole und 
vorgegebenen Antworten werden drei Zeichen zuverlässig und mit ei- 
ner signifikant höheren ER als die mindestens geforderte ER von 67 % 
erkannt (AD3, C2 und D1, Abbildung 6.1). In der anschließenden Un- 
tersuchung von sechs Farben zur Unterstützung der Verständlichkeit 
der Symbole wird lediglich Grün besser bewertet als Weiß. Dies ist be- 
sonders deutlich für die Darstellung der Symbole für ein Gewähren der 
Vorfahrt. 


Die Gegenüberstellung der Erkennungsraten und Konfidenzbewertun- 
gen der offenen und vorgegebenen Antworten zeigt eindeutig, dass 
bereits bekannte Symbole stets als verständlich und aussagekräftig be- 
wertet werden, während unbekannte Symbole v.a. aus einer vorgege- 
benen Auswahl von Bedeutungen sicher erkannt werden. Dies deutet 
darauf hin, dass Symbole nach einem Lernprozess in relevanten Situatio- 
nen des Straßenverkehrs zuverlässig und richtig erkannt werden können. 


Die Voruntersuchung legt nahe, dass auch die Erkennungszeiten durch 


einen Lernprozess erheblich reduziert werden können. 


g 


Abbildung 6.1: Ausgewählte Symbole für ein Konzept zur Fahrzeug-Fußgänger- 
Kommunikation, nach [104][163] 


Für ein vorgeschlagenes Kommunikationskonzept automatisierter Fahr- 
zeuge an Fußgängerüberwegen werden die vier in Abbildung 6.1 darge- 
stellten Symbole aufgrund ihrer hohen Verständlichkeit ausgewählt. Für 
die Farbe dieser wird entgegen den Ergebnissen aus der Onlinestudie 
Weiß statt Grün ausgewählt, um die Verwechslungsgefahr mit Ampel- 
anlagen zu vermeiden und farbfehlsichtige Verkehrsteilnehmer nicht 
zu benachteiligen. Eine mögliche Umsetzung des Konzepts wäre das 
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dauerhafte Anzeigen von Symbol AD3 im automatisierten Fahrmodus, 
um das Vertrauen in die Technologie zu erhöhen. In der Nähe eines 
Fußgängerüberwegs, der mittels Navigations-, Strecken- und Kamera- 
daten ermittelt werden kann, wird im Falle des Vorfahrt-gewährens für 
Fußgänger das Symbol C2 angezeigt. Falls das Fahrzeug nicht anhalten 
wird, weil es bspw. keinen Fußgänger erkannt hat, kann es das Symbol 
27 am Display darstellen. Um eine kritische Handlungsempfehlung aus- 
zuschließen, kann anstelle von C2 auch D1 angezeigt werden, wenn ein 
Fußgänger erkannt wird. Damit zeigt das Fahrzeug nicht Symbol C2 
und damit, dass dem Fußgänger Vorfahrt gewährt wird, sondern mittels 
D1 lediglich, dass das Fahrzeug den Fußgänger erkannt hat. Dies ist mit 
einem Blickkontakt zu vergleichen, welcher lediglich bedeutet, dass ein 
Fußgänger erkannt wird und nicht wie in einer Geste, dass dieser die 
Straße überqueren kann. 


Um die nochmals zusammengefasste Fahrzeug-Fußgänger-Kommuni- 
kation auch bereits im „manuellen Fahren“ umzusetzen, wird in die- 
ser Arbeit ein Algorithmus zur Fahrerintentionserkennung vorgestellt. 
Damit können die Intention des Fahrers an Fußgängerüberwegen anzu- 
halten bestimmt werden und dementsprechend die passenden Symbole 


angezeigt werden. 


Zur Analyse von zeitlichen Abfolgen und Signalsequenzen werden in 
der Literatur hauptsächlich rekurrente neuronale Netzwerke eingesetzt. 
Diese unterscheiden sich von Feedforward Neural Networks durch 
eine Rückführung bzw. Hidden State und können beispielsweise zur 
Prädiktion oder Analyse von Zeitreihen verwendet werden. Im Vergleich 
mit konventionellen Algorithmen des maschinellen Lernens setzten sich 
in den vergangen Jahren vor allem LSTMs, spezielle RNNs, durch. Die 
Absicherung datenbasierter Algorithmen, v.a. für sicherheitskritische 
Anwendungen, ist eine wichtige Herausforderung und kann mittels 
verschiedener Ansätze erfolgen (vgl. Kapitel 3.4). 
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Zur Prädiktion einer Fahrerintentionserkennung an Fußgängerüberwe- 
gen wird in Kapitel 5 ein mehrstufiger Algorithmus aufgebaut und 
sowohl mit durchschnittlichen und als auch mit fahrer- bzw. fahrzeug- 
spezifischen Datensätzen trainiert. Der implementierte Machine Lear- 
ning Algorithmus ist zur Absicherung und besseren Interpretierbarkeit 
in drei Stufen aufgeteilt. Zur genaueren Evaluation des entwickelten 
Algorithmus werden Klassifikationen an Zebrastreifen und sonstigen 
Situationen, in denen das Fahrzeug anhält, gegenübergestellt. Als An- 
forderung an das System werden im Hinblick auf die Zielanwendung 
einer Fahrzeug-Fußgänger-Kommunikation an Fußgängerüberwegen 
eine Richtig-positiv Rate von mindestens 95 % und eine Falsch-positiv 
Rate von höchstens 5 % gefordert. 

Der in dieser Arbeit entwickelte Algorithmus zur Fahrerintentionser- 
kennung an Fußgängerüberwegen besteht aus drei Stufen. In der ersten 
Stufe ist ein RNN bestehend aus vier LSTM-Schichten mit jeweils 64 
Zellen und zwei Fully-connected Layers implementiert, welches zur Prä- 
diktion von fünf Signalsequenzen dient. Diese zeitabhängigen Signale 
werden in der zweiten Stufe mit Hilfe eines Random Forest bestehend 
aus 30 Bäumen mit einer Tiefe von zehn interpretiert. Dies ist eine binäre 
Klassifikation, ob der Fahrer anhalten möchte oder nicht, aus welcher ei- 
ne Wahrscheinlichkeit der Fahrerintention resultiert. In der letzten Stufe 
des Algorithmus wird eine Geschwindigkeitsschwelle von 7 kmh~! zur 
Plausibilisierung verwendet, ob das Fahrzeug im Prädiktionshorizont 
von 2s auch wirklich anhalten wird. 

Für das Vortrainieren des Algorithmus wird ein allgemeiner Datensatz 
bestehend aus 782.840 Zeitreihen in der Nähe von 7114 Fußgängerüber- 
wegen aufgebaut. Zusätzlich wird der Algorithmus an die fahrer- bzw. 
fahrzeugspezifischen Fahreigenschaften von vier Testpersonen und ei- 
nem Fahrzeug angepasst. Dazu werden zwei Referenzstrecken im Raum 
Ingolstadt definiert, die zur Aufnahme jeweils eines Trainings- und eines 
Testdatensatzes dienen. Die Referenzstrecke zur personalisierten Auf- 
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zeichnung von Trainingsdaten ist insgesamt 36,3 km lang und beinhaltet 
sechs Zebrastreifen, neun Fußgängerüberquerungshilfen und 79 weitere 
Verkehrssituationen, in denen das Fahrzeug anhalten könnte. Der fahrer- 
bzw. fahrzeugspezifische Testdatensatz umfasst eine Strecke von 3,3km 
und 18 potentielle Situationen, Fußgängern die Vorfahrt zu gewähren. 


Sowohl der Datensatz für das Vortrainieren als auch die Datensätze 
für das Nachtrainieren des Algorithmus bestehen aus jeweils 22 Fea- 
tures bzw. Signalen. Diese Bussignale beinhalten bspw. Geschwindigkeit, 
Bremsdruck, eine Verkehrszeichenerkennung oder Informationen aus 
der Objekterkennung der Fahrzeugkamera (vgl. Kapitel 5.2.2). Mit die- 
sen 22, je 3,5 langen Zeitreihen werden fünf Signale über einen Prädik- 
tionhorizont von 2s prädiziert. Diese dienen als Eingang für die Stufe 2 
des Algorithmus (siehe oben) und beinhalten die Features Geschwindig- 
keit, Bremsdruck, Lenkradwinkel, Längs- und Querbeschleunigung. 


Der vortrainierte Algorithmus zur Fahrerintentionserkennung verfehlt 
die Anforderungen an das System für eine minimale RPR von 95 % und 
eine maximale FPR von 5 %. Nach einer realistischen Interpolation der 
ROC-Kurve (vgl. Kapitel 2.3.1) wird für die maximale FPR in Stufe 3 
eine RPR von 94, 1 % gemessen. Die Klassifikationsgenauigkeit bzw. RPR 
nach Stufe 3 ist vor allem für niedrige FPRs bis 0,5% um bis zu 18,6 % 
höher als das nicht plausibilisierte Ergebnis nach Stufe 2. 


In einer zusätzlichen Evaluation des vortrainierten Algorithmus mit 
ausgewählten Daten wird die Klassfikationsgenauigkeit an Zebrastrei- 
fen und sonstigen Anhaltesituationen gegentibergestellt. Bis zu einer 
FPR von ca. 11 % liegen die RPRs der ROC-Kurve an Zebrastreifen unter 
der in sonstigen Anhaltesituationen. Dies zeigt, dass der Algorithmus 
besonders für das Prädizieren eines Anhaltens des Fahrzeugs in sonsti- 
gen Situationen geeignet ist, z.B. an Ampelanlagen oder Kreisverkehren. 
Weiter zeigt die Untersuchung an Zebrastreifen, dass ein Anhalten sehr 
sicher erkannt werden kann, die Klassifikation bei erneutem Beschleuni- 
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gen nach dem Fußgängerüberweg jedoch häufig zu FPs führt. Dies wird 
durch die Evaluation der Abweichung von prädizierter Wahrscheinlich- 
keit für ein Anhalten und dem jeweiligen Label bestätigt. Das Erkennen, 
wann der Fahrer losfahren möchte, ist nicht kausal und kann folglich 
nicht prädiziert werden, in der Praxis ergeben sich dadurch jedoch 
keine Einschränkungen. Zwar findet, bedingt durch den Prädiktions- 
horizont von 2s und dem nicht kausalen Ereignis der Beschleunigung 
eine Fehlprädiktion statt, doch würde das Fahrzeug lediglich ein Symbol 
für das Vorfahrt-gewähren anzeigen, solange es noch steht. Sobald das 
Fahrzeug anfängt erneut zu beschleunigen, erkennt der implementierte 
Algorithmus, dass der Fahrer nicht anhalten möchte und deaktiviert 
das Symbol des Vorfahrt-gewährens. Neben zusammenhängenden FPs 
beim Beschleunigen nach dem Fußgängerüberweg tritt diese Art der 
Falschklassifikation meistens einzeln auf und kann deshalb herausge- 
filtert werden. Dadurch entsteht keine gefährliche Situation für andere 
Verkehrsteilnehmer durch eine widersprüchliche Anzeige zur eigent- 
lichen Intention des Fahrers. Mit dem Einsatz eines Tiefpassfilters ist 
jedoch je nach Filterlänge eine zeitliche Verzögerung von 10 ms bis ca. 
500 ms verbunden. Dabei ist die Länge und Art des Filters für die da- 
mit verbundene Verzögerung ausschlaggebend. Demnach sind dieser 
Argumentation folgend weder die einzeln noch in Gruppen auftreten- 
den FPs ein Hindernis für den Einsatz des entwickelten Algorithmus 
im Fahrzeug. Dennoch sollten diese Einschätzungen, z.B. in breit ange- 
legten Probandenstudien, überprüft werden, um auch in Zukunft eine 
maximale Verkehrssicherheit garantieren zu können. Die Sicherheit im 
Straßenverkehr ist stets in allen Situationen zu gewährleisten, weil be- 
sonders in Fällen einer FP-Klassifikation schwache Verkehrsteilnehmer 
den potentiell größten Schaden davon tragen würden. 


Um den Algorithmus an die fahrer- bzw. fahrzeugspezifischen Daten 
anzupassen wird ein Transfer Learning eingesetzt. Dazu werden die 
letzten beiden Schichten des neuronalen Netzes aus Stufe 1 mit den 
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jeweiligen Fahrerdaten an die fahrer- und fahrzeugspezifischen Eigen- 
schaften angepasst. Auch in Stufe 2 des Algorithmus wird sowohl der 
Entscheidungsbaum für das Labeling der Daten, als auch der Random 
Forest für die Klassifikation der Fahrerintention personalisiert. 


Die fahrer- bzw. fahrzeugspezifischen Algorithmen verbessern die Klas- 
sifiktationsgenauigkeit für drei der vier Testpersonen, sodass die Anfor- 
derungen an das System (vgl. Kapitel 5.1.2) eingehalten werden können. 
Vor allem Fahrer 1 und 4 erfüllen die Anforderungen an das System und 
erreichen in den gewählten Arbeitspunkten um 2,3% und 3,7 % höhere 
Erkennungsraten als der vortrainierte Algorithmus. Das beste Ergebnis 
liegt für Fahrer 4 mit einer RPR von 95, 6 % und einer FPR von 1,9% vor. 
Die ROC-Kurve für Fahrer 2 zeigt eindeutig, dass der Algorithmus nicht 
für alle Testpersonen erfolgreich angepasst werden kann und dies von 
den zur Verfügung stehenden Daten abhängt. 


Ein Personalisieren des Algorithmus an fahrzeugspezifische Eigenschaf- 
ten wird durch das Transfer Learning mit allen Trainingsdatensätzen der 
vier Fahrer umgesetzt. Die ROC-Kurve dieses angepassten Netzwerks 
übersteigt die Genauigkeit des vortrainierten Algorithmus erst ab einer 
FPR von 2,6%. Zwar kann damit eine RPR von 95,2 % erreicht werden, 
jedoch ist keine klare deskriptive Tendenz zu erkennen, dass mit der 
Anpassung an fahrzeugspezifische Merkmale die Klassifikationsgenau- 
igkeit verbessert werden kann. 


6.2 Ausblick 


In diesem Kapitel werden Forschungsgegenstände für zukünftige Unter- 
suchungen und die Weiterentwicklung des vorgestellten Algorithmus 
aufgezeigt. Außerdem wird eine mögliche Umsetzung einer kombi- 
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nierten Anwendung der Fahrerintentionserkennung und der Fahrzeug- 
Fußgänger-Kommunikation beschrieben. 


6.2.1 Zukünftige Forschungsgegenstände 


Weitere Untersuchungen sind v.a. im Rahmen von Realfahrstudien 
anzusetzen, um Limitierungen der bisherigen Untersuchungen zu 
überwinden. Die prinzipielle Umsetzbarkeit einer Fahrzeug-Fußgänger- 
Kommunikation konnte in den beiden Studien nachgewiesen werden, 
doch sind Abweichungen in realen Verkehrssituationen möglich. So 
können v.a. Ablenkung durch andere Verkehrsteilnehmer, Werbung oder 
sonstige Distraktoren und die Notwendigkeit, schnell Entscheidungen 
zu treffen, die Verständlichkeit von Zeichen negativ beeinflussen. Es 
gilt weiter zu untersuchen, ob andere Verkehrsteilnehmer durch die 
Anzeige von bestimmten Zeichen abgelenkt werden. Außerdem sind 
im Straßenverkehr häufig Situationen anzutreffen, in welchen mehr 
als ein Fahrzeug und ein Fußgänger beteiligt sind und miteinander 
kommunizieren. Hierfür sind weitere Untersuchungen anzustellen, 
um neben einer Kommunikation des Fahrzeugs mit anderen Fahrern 
auch die Kommunikation mit mehreren Fußgängern zu erforschen. 
Besondere Anforderungen werden dabei an das direkte Adressieren 
einzelner Verkehrsteilnehmer gestellt. 


Für dieses direkte Ansprechen eines Verkehrsteilnehmers muss eine 
lichttechnische Auslegung und Untersuchung von Signalgebern erfol- 
gen. Damit soll die Wirkung gerichteter Lichtquellen in Verbindung 
mit Symboldarstellungen im Straßenverkehr untersucht werden, um 
eine missverständliche oder ungewollte Kommunikation auszuschlie- 
ßen. Außerdem ist es zum aktuellen Zeitpunkt weitestgehend unklar, 
welche Leuchtdichte, Kontrast, Abstrahlcharakteristik und Größe die 
Displays und Leuchtenarrays vorweisen sollen. Deshalb ist weiterhin 
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auch offen, welche Technologie sich zur Kommunikation im Straßenver- 
kehr am besten eignet. Denkbar wären bspw. LCD- oder OLED-Displays, 
OLED- bzw. LED-Leuchtenarrays oder nachts auch Projektionssysteme 
wie Laserscanner- oder Mikrospiegel-Scheinwerfer. 


Außerdem sollen zusätzliche Studien zur Akzeptanz automatisierter 
Fahrzeuge mit und ohne Kennzeichnung des automatisierten Fahrmo- 
dus erfolgen. Die Notwendigkeit für diese Anzeigen wird in Kapitel 
3.2.1 aufgrund von Hypothesen oder Wizard-of-Oz Ansätzen herge- 
leitet. Daraus wird geschlussfolgert, dass eine Fahrzeug-Fußgänger- 
Kommunikation notwendig ist, damit diese schwachen Verkehrsteilneh- 
mern ein Sicherheitsempfinden zurückerlangen und ein Vertrauen in die 
neue Technologie entwickeln. Wizard-of-Oz Ansätze, also das Tarnen 
eines konventionellen Fahrzeugs als ein automatisiertes Fahrzeug, sind 
notwendig, da zum aktuellen Zeitpunkt automatisierte Fahrzeuge nur 
sehr eingeschränkt verfügbar sind und deshalb lediglich wenige Studi- 
en mit automatisierten Fahrzeugen durchgeführt werden. Aus diesem 
Grund ist es weitgehend unklar, wie sich Verkehrsteilnehmer in Anwe- 
senheit von wirklich automatisiert fahrenden Fahrzeugen verhalten. 


Als letzter Punkt für eine Kommunikation mit anderen Verkehrsteil- 
nehmern soll auf den Mangel von Untersuchungen zu einer Fahrzeug- 
Kommunikation hingewiesen werden, welche nicht an Fußgänger adres- 
siert ist. So könnten Fahrzeuge bspw. vor Gefahren im Verkehr warnen, 
z.B. auf ein nahes Stauende, Pannenfahrzeuge oder Glättesituationen 
hinweisen. Damit kann in unterschiedlichen Situationen bereits heute 
die Verkehrssicherheit erhöht und das Vertrauen in neue Fahrzeugtech- 
nologien verstärkt werden. Außerdem könnten Park- und Übergabesi- 
tuationen automatisierter Fahrzeuge mittels visueller Kommunikation 
unterstützt werden. So wäre für den Fahrer eines Fahrzeugs und für 
andere Verkehrsteilnehmer stets ersichtlich, in welchem Zustand sich 
das Fahrzeug befindet, z.B. Fahrzeugdefekt oder automatisierter Fahr- 
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modus, und welche weiteren Schritte, z.B. Verschließen des Fahrzeugs, 
für ein Aktivieren des automatisierten Fahrsystems, notwendig sind. 


Die in dieser Arbeit vorgestellte Fahrerintentionserkennung kann für 
verschiedene Anwendungen in Fahrzeugen eingesetzt werden. Diese 
reichen vom Erkennen der Anhalteintention auf Autobahnen oder Bun- 
desstraßen für eine Warnung anderer Verkehrsteilnehmer, über verbes- 
serte Start-Stopp Systeme und einer prädiktiven Rekuperation bis hin 
zur Kommunikation mit Fußgängern an Zebrastreifen. Zur Fahrzeug- 
auslieferung könnte der vortrainierte Algorithmus eine Basisfunktio- 
nalität erfüllen und für einen durchschnittlichen Fahrer das Anhalten 
vorhersagen. Dieser Algorithmus könnte bereits mit Hilfe von weiteren 
Trainingsdaten an den jeweiligen Fahrzeugtyp angepasst sein oder sich 
erst nach Auslieferung an den Kunden auf das Fahrzeug und den jewei- 
ligen Fahrer personalisieren. Das zugrundeliegende Transfer Learning 
kann auch als Ergänzung zum Erkennen und Speichern von Fahrprofi- 
len unterschiedlicher Fahrer eingesetzt werden, um so stets bestmöglich 
dessen Intention zu prädizieren. 


Bis zur serientauglichen Implementierung sind jedoch noch weitere 
Entwicklungsstufen notwendig. So sollen die in dieser Arbeit durchge- 
führten Evaluationen, insbesondere das Transfer Learning für einzelne 
Fahrer, weiter getestet werden. Hierfür könnten sowohl weitere Fahrer 
als auch Fahrzeuge eingesetzt werden oder längere Referenzstrecken für 
Trainings- und Testdaten aufgezeichnet werden. Außerdem wird emp- 
fohlen, weitere Referenzstrecken in den gewünschten Einsatzgebieten 
zu definieren und mit diesen den Algorithmus zu verbessern. Zuletzt 
wäre es für eine serientaugliche Umsetzung erforderlich, das Labeling 
der Daten nicht ausschließlich mit dem hier verwendeten Regelsatz 
durchzuführen, sondern zusätzlich durch unabhängiges Labeln diverser 
Testpersonen zu validieren. 
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Gegenstand zukünftiger Untersuchungen ist der Einsatz von Convolu- 
tional Neural Networks bzw. Temporal Convolutional Neural Networks, 
welche nach Salehinejad et al. eine genauere Prädiktion von Zeitreihen 
ermöglichen [72]. Diese wurden bereits durch Höß [182] sowie Schleyer 
[183] untersucht und weisen eine geringfügig niedrigere MSE als die 
verwendeten RNN-Architekturen auf. Wie in Kapitel 5.5.3 beschrieben, 
führt eine niedrigere MSE nicht direkt zu höheren RPRs oder niedrige- 
ren FPRs. So zeigt Höß [182], dass die beiden untersuchten Arten der 
neuronalen Netze vergleichbare Klassifikationsergebnisse aufweisen. Ei- 
ne weitere Möglichkeit der Fahrerintentionserkennung wird von Ellouze 
unter Anwendung von Kameradaten beschrieben, welche die Verkehrssi- 
tuation aufzeichnen [196]. Dabei werden Sequenzen von Kamerabildern 
direkt als Eingangsdaten eines neuronalen Netzes verwendet. Diese 
Möglichkeit einer direkten Nutzung von Kamerabildern sollte weiter 
untersucht werden. 


Neben zusammenhängenden Blöcken von FPs beim Losfahren, treten 
sicherheitskritische Falsch-Positiv Klassifikationen für das Anhalten ein- 
zeln auf und könnten mit Hilfe eines Tiefpass-Filters eliminiert werden 
(vgl. Kapitel 5.5.1). Deshalb sollte für weitere Untersuchungen ein Ent- 
prellen der Prädiktion erfolgen. Dies kann bspw. mit einfachen Tiefpass- 
Filtern, wie gleitenden Mittelwerten, umgesetzt werden, um mit gerin- 


gem Aufwand die FPR zu reduzieren. 


Außerdem wird in [142] darauf hingewiesen, dass Transfer Learning 
nicht immer den gewünschten Erfolg beim Wissenstransfer eines Be- 
reichs auf einen anderen aufweist. Somit könnte dieses Verfahren die 
funktionale Sicherheit negativ beeinflussen und sollte daher stets mit 
weiteren Tests abgesichert werden [142]. Ein Verlust an Sicherheit darf 
zu keinem Zeitpunkt stattfinden, weshalb sichergestellt sein muss, dass 
die Richtig-positiv Rate und Falsch-positiv Rate auf dem gleichen, sehr 
hohen Niveau bleiben wie vor dem Transfer Learning. 
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Neben den in diesem Kapitel dargestellten Anwendungsfällen können 
weitere Use-Cases definiert werden. Die Netzwerkarchitektur der Fah- 
rerintentionserkennung könnte u.a. auf das Prädizieren einer Lenkbewe- 
gung angepasst werden. Damit könnte bspw. bestimmt werden, welche 
Ausfahrt der Fahrer in einem Kreisverkehr verwenden möchte oder 
ob er einen Fahrstreifenwechsel auf Bundesstraßen oder -autobahnen 
durchführen wird. Diese Informationen könnten zum automatischen 
Aktivieren bzw. Deaktivieren des Fahrtrichtungsanzeigers verwendet 
werden [128]. 


Darüber hinaus ist die Anwendung dieser Informationen in vernetz- 
ten Fahrfunktionen möglich. Das Ergebnis der Fahrerintentionserken- 
nung könnte beispielsweise mit Hilfe eines beliebigen Funkstandards 
an andere Verkehrsteilnehmer übermittelt werden, damit diese darauf 
entsprechend reagieren können. Diese Reaktion könnte bspw. einen grö- 
ßeren Abstand zum vorausfahrenden Fahrzeug oder komfortableres 
Bremsen darstellen. Dadurch könnte eine Strukturierung und Ordnung 
des Straßenverkehrs ähnlich wie im Flugverkehr erfolgen. Auch die 
Entwicklung eines vernetzten Start-Stopps könnte durch den Austausch 
zwischen den Fahrzeugen umgesetzt werden. Wissen andere Fahrzeuge 
um die Intention des Fahrers, könnten diese bspw. das Antriebssystem 
frühzeitig starten, um die Dauer zur Fahrbereitschaft zu reduzieren oder 
den Motor länger deaktiviert lassen, um noch länger Energie zu sparen. 


6.2.2 Anwendung einer Fahrerintentionserkennung zur 
Fahrzeug-Fußgänger-Kommunikation 


Wie bereits in Kapitel 3.2.1 beschrieben, ist eine Fahrzeug-Fußgänger- 
Kommunikation v.a. zwischen automatisierten Fahrzeugen und Fuß- 
gängern notwendig, jedoch kommunizieren auch Fahrer „manueller 
Fahrzeuge” regelmäßig mit anderen Verkehrsteilnehmern. Insbesondere 
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Fußgänger sind auf eine Kommunikation mit dem Fahrer angewiesen, 
um sich sicher zu fühlen und Vertrauen aufzubauen. In der Kommu- 
nikation zwischen Fahrer und Fußgänger im „manuellen“ Verkehr ist 
es von besonderem Nachteil, dass die verwendeten Zeichen keine ein- 
deutige Nachricht übermitteln, nicht immer gesehen werden können 
und deren Deutungen inter- bzw. intrapersonell stark variieren können 
(vgl. Kapitel 3.1). Deshalb wäre auch im heutigen Straßenverkehr bereits 
eine standardisierte und verständliche Kommunikation hilfreich, die zur 
optimalen Sichtbarkeit vor allem bei Nacht mittels Fahrzeugleuchten 
erfolgen kann. Diese Fahrzeug-Fußgänger-Kommunikation kann die 
heutige Fahrer-Fußgänger-Interaktion ergänzen oder teilweise sogar 


ersetzen. 


Die in dieser Arbeit untersuchten Zeichen einer Fahrzeug-Fußgänger- 
Kommunikation automatisierter Fahrzeuge weisen eine geringe Intuiti- 
vität auf und deren Bedeutungen müssen erst von anderen Verkehrsteil- 
nehmern gelernt werden (vgl. Kapitel 6.1). Diese Erkenntnisse können 
aus den beiden vorgestellten Untersuchungen (vgl. Kapitel 4.2 und Ka- 
pitel 4.3) geschlossen und durch verschiedene andere Arbeiten bestätigt 
werden (vgl. Kapitel 4.2.2 und Kapitel 4.3.3). Der notwendige Lernvor- 
gang kann bereits beim „manuellen Fahren” erfolgen, wobei weiterhin 
die von Fußgängern und anderen Verkehrsteilnehmern erwartete und 
bekannte Kommunikation mit dem Fahrer besteht. So können in einer 
Übergangszeit zum automatisierten Fahren bereits im heutigen Straßen- 
verkehr die noch unbekannten, neuen Signale der Fahrzeuge angezeigt 
werden, während der Fahrer in gewohnter Art und Weise kommuniziert. 
Dabei lernen Fußgänger die Bedeutung einzelner Zeichen und verknüp- 
fen sie in einem mentalen Modell mit häufig auftretenden Situationen. 
Durch diese gleichzeitige Anzeige der neuen Zeichen und der bereits 
bekannten Kommunikation des Fahrers wird die Fahrzeug-Fußgänger- 
Kommunikation für automatisierte sowie für „manuelle Fahrzeuge” 
fortlaufend verständlicher. 
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Für die Umsetzung der Fahrzeug-Fußgänger-Kommunikation in „manu- 
ell” gesteuerten Fahrzeugen sind verschiedene Ansätze möglich. Zwar 
wäre auch das manuelle Aktivieren der Fahrzeugleuchten und damit 
der Anzeige der Zeichen möglich, doch ist das automatische Starten der 
Kommunikation für den Fahrer wesentlich komfortabler und sicherer. 
Damit kann auch ein regelmäßiges Anzeigen der Zeichen sichergestellt 
werden. Für das automatische Starten der Kommunikation ist eine Fah- 
rerintentionserkennung notwendig, welche bspw. erkennt, wann ein 
Fahrer anhalten möchte. In Verbindung mit zusätzlichen Informationen 
zum Situationsverständnis aus Navigations-, Mobilfunk- oder Kamera- 
systemen können zu jedem Zeitpunkt sinnvolle Zeichen einer Fahrzeug- 
Fußgänger-Kommunikation angezeigt werden. Ein mögliches Konzept 
ist, in der Nähe von Fußgängerüberwegen das Symbol 27 darzustellen 
und bei prädizierter Anhalteintention wahlweise auf Symbol C2 oder 
D1 zu wechseln (siehe Abbildung 6.1). Mit Hilfe der Information, dass 
sich das Fahrzeug in der Nähe eines Fußgängerüberwegs befindet, kann 
ein unnötiges und unpassendes Anzeigen der Symbole vermieden wer- 
den, z.B. wenn der Fahrer am Straßenrand halten oder parken möchte. 
Des Weiteren könnte mittels einer Fußgängerintentionserkennung die 
Anzeige der Symbole noch situationsspezifischer eingesetzt werden (vgl. 
Schneemann et al. [111]). Automatisierte Fahrzeuge können zum Unter- 
schied von „manuellen Fahrzeugen” zu jedem anderen Zeitpunkt das 
Zeichen AD3 darstellen. Mit einer derartigen Umsetzung könnte die 
bekannte Fahrer-Fußgänger-Kommunikation fahrerunabhängig ergänzt 
werden und zusätzlich auch bei schlechten Sichtverhältnissen sicher 
erfolgen. Gleichzeitig wird die Fahrzeug-Fußgänger-Kommunikation 
in Vorbereitung auf das automatisierte Fahren von beteiligten Verkehrs- 
teilnehmern erlernt. Um die vom Fahrzeug ausgehenden Gefahren für 
die Fußgänger weiter zu minimieren wird über die beschriebene Umset- 
zungsmöglichkeit hinaus empfohlen, bereits bekannte Assistenzsysteme, 
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wie z.B. Manöverassistenten, PreCrash- oder Notbremsassistenzsysteme, 
weiterhin einzusetzen und auch in Zukunft weiterzuentwickeln. 


Wie in Kapitel 6.1 beschrieben, erfolgt die Fahrerintentionserkennung 
nicht zu jedem Zeitpunkt korrekt, was v.a. bei Falsch-Positiv Klassifi- 
kationen zu erheblichen Sicherheitsrisiken für Fußgänger führen kann. 
Dieses Unfallpotential liegt zwar sogar mit der am besten erreichten 
FPR des Fahrers 4 bei 1,9% und damit innerhalb der Anforderungen an 
das System (vgl. Kapitel 5.1.2), jedoch ist diese FPR für eine sichere An- 
wendung im Straßenverkehr auf dem ersten Blick immer noch deutlich 
zu hoch. Wie in Kapitel 5.5.1 beschrieben, treten die meisten FPs beim 
erneuten Beschleunigen nach dem Anhalten an Fußgängerüberwegen 
auf, welche jedoch in der Praxis keine negativen Auswirkungen auf die 
Sicherheit der Fußgänger haben. 


Zusätzlich können dem Fahrer im Innenraum die vom Fahrzeug gesam- 
melten Informationen dargestellt werden. Diese beinhalten die erkannte 
Intention, kreuzende Trajektorien mit anderen Verkehrsteilnehmern oder 
Position anderer Verkehrsteilnehmer, die potentiell mit dem Fahrzeug 
bzw. Fahrer interagieren. Die Anzeige kann über ein allgemeines Fahrer- 
informationssystem, Hinweise im Infotainmentsystem oder dynamische, 
segmentierte Lichtleisten im Innenraum erfolgen. Um das Risiko einer 
Falschanzeige der Fahrzeug-Fußgänger-Kommunikation zu minimieren, 
kann anstelle einer direkten Aktivierung dem Fahrer die Möglichkeit ge- 
geben werden, zusätzlich die Kommunikation freizugeben. Eine solche 
Eingabeaufforderung kann über ein Infotainmentsystem erfolgen und 
eine Bestätigung durch Spracheingabe oder Tastendruck erfordern. 


Zusammengefasst kann mit der hier vorgestellten Arbeit ein System 
zur Fahrzeug-Fußgänger-Interaktion sowohl für das automatisierte, als 
auch für das „manuelle Fahren“ umgesetzt werden. Die symbolbasierte 
Kommunikation könnte in beiden Fällen sehr ähnlich gestaltet werden, 
jedoch ist für das „manuelle Fahren“ eine Fahrerintentionserkennung 
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mit dem hier eingeführten Algorithmus notwendig, während beim auto- 
matisierten Fahren bereits das nächste Manöver des Fahrzeugs feststeht. 
Dieser Algorithmus bietet trotz verbleibender Falschprädiktionen von 
Anhalteintentionen eine für die Praxis sehr gute Einsatzmöglichkeit mit 


nur geringen Einschränkungen. 
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exponentielle Abklingrate des zweiten Moments (Adam 
Optimizer) 

Lernrate 

Mittelwert der Datenpunkte aus dem Feature j 
Standardabweichung der Datenpunkte aus dem Feature j 
Bias 

Gewichte- und Biasmatrix 
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A UNTERLAGEN ZU DEN STUDIEN 


A.1 Voruntersuchung 


In folgender Abbildung sind die Erkennungsraten aller Zeichen der 
Voruntersuchung dargestellt. 


T 
[freie Antworten 
0,9 HHlvorgegebene Antworten 7 


= Ill | 
oo: IH I | | 


5 10 15 20 25 30 
Symbol # 


Abbildung A.1: Mittlere Erkennungsraten aller Symbole für freie und vorgegebene Ant- 
wortmöglichkeiten 
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A.2 Onlinestudie 


Nachfolgend sind Screenshots der Onlinestudie von Marichalar Queza- 
da und Auburger aufgeführt [163]. 


Why do we collect and use your data 
Informed Consent Form 


Introduction 
This study attempts to collect information on your perception of different symbols. 


Procedures 


The survey consists of 3 parts. 
You will be presented with a scenario that describes a traffic situation and asked to complete a questionnaire. This questionnaire will be 
conducted with an online Unipark-created survey. 


Duration 


25-30 minutes (approx.) 
Maximum allowed time: 45 minutes 


Risks/Discomforts 
There appear to be no risks and discomforts associated with the study. 


Confidentiality 


All data obtained from participants will be kept confidential and will only be reported in an aggregate format (by reporting only combined 
results and never reporting individual ones). 


Compensation 
You will receive the compensation as indicated on the MTurk/Prolific website. 
Please make sure to write your MTurk/Prolific ID at the end of the study. 


Attention! 
If you fail the attention test, the color vision test or fail to complete the survey, you will not be compensated. 


Participation 
Participation in this research study is completely voluntary. You have the right to withdraw at anytime or refuse to participate entirely. 


Questions about the Research 
If you have questions regarding this study, you may send an email to symbolsandiconsurvey@gmail.com 


For further information about Unipark's Data Security and Privacy Policy, please visit https://www.unipark.com/en/data-security/ 


If you would like to obtain more information about the processing of your personal data, please click here 


[ | agree to the processing of my personal data in accordance with the information provided herein 


| don't want to participate 
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In the course of this survey, you will look at different images and videos, therefore the following points are very important: 


œ This survey was optimized for use on a laptop or desktop PC. Therefore, please do not fill in this survey on a mobile phone 


e Please ensure a stable internet connection so the videos run smoothly 
* Additionally, please ensure that you can see your screen well, avoid reflexions on the screen and wear your prescription glasses/ lenses in case you need them 


+ Please close any background videos or music 
+ Please open the survey in full-screen (F11 on your keyboard) 


Question 1 
If you have read and understood the conditions above and made all relevant changes to ensure that the survey runs smoothly, please click "yes" to 


continue with the survey. 


O yes 
Ono 


Continue 


‘Question 2: 


Do you wear glasses or contact lenses? 
Please check "yes" if you use any form of visual aids in at least one of your daily activities (e.g. when driving or reading) 


O yes 
O no 


Question 3: 
Please take a close look at the following image: 


What number do you see? 


O47 
O49 
O15 
02 


© | don't see any number 


‘Continue 


211 


UNTERLAGEN ZU DEN STUDIEN 


Question 4: 
Please take a close look at the following symbol: 


Can you see the symbol in the image below? 


O yes 
On 


Continue 
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Please have a closer look, the symbol is inside the red rectangles. 


Question 5: 
Can you see it now? 


O yes 
Om 


Continue 
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Question 5: 


Which kind of symbol can you see in the picture below? 
Often in surveys, people don't read the full questions and risk answering incorrectly. We therefore ask you to choose the option “Sad face” down below. 


© Happy face 
O Sad face 


‚Continue 
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= 


Instructions 


(!) Read carefully (!) 


Imagine you are walking on a sidewalk next to a busy road and you need to cross to the other side. You look to your right side and see that a car is 
driving towards you at approximately 10 km/h (6 mph). You want to cross in front of the car. 

To answer the questions in this survey, please imagine that you take on the role of this pedestrian. 

Picture 1: 


This is a diagram of your position on the sidewalk. 


Picture 2: 


This picture shows what you would see from the perspective you are standing from. 


Question 6: 
Do you understand the role you are in? 


O yes 
Ono 


Continue 
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13% 


Part 1 


Instructions: 


Imagine you are in the situation described before. 
You will see the image of the car, this time with different symbols at the front, where the red rectangles are now. 


For each symbol, there will be 3 questions. 


Remember, there are no right or wrong answers! We are interested in your honest opinion. 


Continue 
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Question 7: 
Please have a look at the symbol in this image: 


How well do you think you understand the meaning of the symbol? 


Assess your answer on a scale from 1 to 6. 
To indicate your response, please use the bar below and click under your preferred choice 


1 don't understand 1 understand the meaning 
the meaning at all completely 
1 2 3 4 5 6 
l | | 
Question 8: 


Write down in a few words what you think the symbol in the image means. 
What message does the car want to convey? 
Max. 100 characters 


Question 9: 
How confident do you feel that your last answer is right? 
To indicate your response, please use the bar below and click under your preferred choice 


| am certainly wrong | am certainly right 


f : i i i i 


Continue 
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* wkxeKkr * 
* * * * * * or * 
KR Congratulations! 


You finished the first part of the survey 


Continue 


Part 2 
Instructions: 


Imagine you are in the same situation as before. 


This time however, you can select one of 3 possible meanings for the symbol. 


218 


Continue 


ONLINESTUDIE 


Please have a look at the symbol in the video: 
Please click on the "play" button to start the video. 


Question 34: 
Please select the meaning of the symbol you saw on the video from the following list. 
Select the option that you think fits closest to the meaning. 


O The car has Wi-Fi 
© The pedestrian should not approach the car 
O The car has detected the pedestrian 


Question 35: 
How confident do you feel that your last answer is right? 
To indicate your response, please use the bar below and click under your preferred choice 


| am certainly wrong 1 am certainly right 


| i i i : i 


‘Continue 
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Pen kk 
“ri * i 
RR Excellent! 


You finished the second part of the survey 
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Question 52: 
Part 3. 


Instructions: 


In this part, you will see images or videos of the car again, however this time the symbols are shown in different colors. 


Underneath each image/video, there will be a written statement, giving you the intended meaning of the symbol and the question we ask you to answer. 


Example question 


Meaning: “The driver of the car is happy” 
How confident are you, that the symbol in the image corresponds to the provided meaning? 


To indicate your level of confidence, please use the bar below and click under your preferred choice. 


| am certainly wrong | am certainly right 


1 2 3 4 5 6 


Continue 
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84% 


ah xk * k * 
* * «RW * * A” 
Congratulations! 


You are almost finished. 
Thank you for your collaboration, you did a great job! 
Now, we only need a few details about you. 


en 
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Question 107: 
Please indicate your age. 
(Choose the group of age you belong to 


(Choose he group ofage you belong to 


Oueston 108 
Please indicate your gender. 


Choose your gender [z] 


veston 109: 
Do you live in a rural, suburban or urban area? 
ase select the choice that fts closest with the type of area you Ive in 


O rurai 
© suburban 
O urban 


Queston 110: 
In an average week, how many days per week do you use the following means of transportation to travel to/ from destinations in 
your daily activities (eg. going to work, school, grocery shopping, etc.)? 


on less than 3 days 


every day on 5.8 days per week on 3.4 days per weak ac week never 
Car. drive the car o o o o o 
(Car. I am a passenger in the car (his includes taxi) o o o o o 
Bicycle o o o o o 
Public Transport (e.g. Bus, Metro, Tram) o o o o o 
‘Scooter! Motorcycle o o o o o 
Walking (as a pedestrian) o o o o o 


Queston 111 
As a pedestrian, 
the road)? 


in an average week, how often do you experience walking in areas with light traffic (no cars or only a few cars on 


O every day 

© on 5-6 days per week 

O on 3-4 days per week 

© on less than 3 days per week 
O never 

© Im usually not a pedestrian 


Question 112: 
Which country are you from? 


Please choose your sorry B 


Oueston 113: 
Which color would you expect to see in a symbol when the car wants to tell you that it is in Autonomous Driving Mode? 


eree] 


veston 114: 
Which color would you expect to see in a symbol when the car wants to tell you "The pedestrian can cross"? 


Pate choose ner F] 


veston 115: 
Which color would you expect to see in a symbol when the car wants to tell you it has detected you as the pedestrian? 


ren 


Ouesten 116 
Please select your favorite color: 


(Choose your favorte color. | 


Questen 17 
Were you confident with the level of English used in this survey? 


O yes 
Omo 


Questo 118: 
Did you encounter any technical problems in displaying the images or videos at any point of the survey? (exampl 
sequences were not working, or the images were not shown correctly) 


O yes 
Ono 


Oueston 18 
Do you currently have a driver's license? 


O Yes 
Ono 


continue 
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Question 120: 
When did you obtain your driver's license? 


less than 5 years ago [| 


Continue 
Question 121: 
Please select the online platform you used to find this study: 
© Amazon Mechanical Turk (MTurk) 
© Prolific 


Continue 


Thank you for your time! 


Remeber to go back to the MTurk website and type in your WorkerlD there as well, so we can compensate you. 
In case of any further questions you can contact the researchers under the following e-mail address: 
symbolsandiconsurvey@gmail.com 

We wish you a nice day! 


(Press F11 to quit fullscreen mode) 
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Tabelle A.1: 
Ergebnisse der korrigierten ANOVA mit Messwiederholung, nach [163] 
Symbol F-Statistik p-Wert 


AD1 F(4,222; 2988, 850) = 63,50 < 0,001 
AD2 F(4,357; 3084,686) = 78,19 < 0,001 
AD3 F(4, 258; 3014, 382) = 114,37 < 0,001 
C1 F(3, 872;2741,322) = 282,30 < 0,001 
C2 F(3, 667; 2596, 347) = 362,92 < 0,001 
C3 F(3, 811; 3540; 000) = 378,85 < 0,001 
D1 F(4, 056; 2871, 460) = 166,06 < 0,001 
D2 F(3,794; 2685,895) = 71,17 < 0,001 
D3 F(4,092; 2896,97) = 65,512 < 0,001 


Wwe s > YH 
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B WEITERE ERGEBNISSE ZUR 
FAHRERINTENTIONSERKENNUNG 


In diesem Kapitel werden ergänzende Ergebnisse zur Fahrerintentions- 
erkennung präsentiert, die als zusätzliche Information zu den in Kapitel 
5 dargestellten Inhalten dienen. 


B.1 Regelsatz zur Bestimmung der 


Fahrerintention 

Tabelle B.1: 

Regelsatz für das Labeling der Daten zur Bestimmung der Fahrerintention, nach [182] 
# Regel Halten 
0 Start 
1 Minimum Geschwindigkeit > 50 km 0 
2 Maximum Geschwindigkeit < 6 Im 1 
3 Minimum Geschwindigkeit > 30 um 0 
4 Geschwindigkeit stetig steigend 0 
5 Geschwindigkeit stetig fallend& 

(Endgeschwindigkeit < 10 kn) 1 
6  Durchschnittliche Beschleunigung in y > 1 3 0 
7 Durchschnittliche Beschleunigung in x > —2 5 1 
8 Minimum Bremsdruck > 5 bar 1 
9 Minimum Bremsdruck > 3 bar 1 
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# Regel Halten 

10  (Startgeschwindigkeit +5 km) < Endgeschwindigkeit 0 

11 (Durchschnittliche Geschwindigkeit > 20 KI) & 
(Standardabweichung < 1%) 0 

12 (Durchschnittliche Geschwindigkeit > 15 KM) & 
(Standardabweichung < 1 "")& 


(Durchschnittlicher Bremsdruck < 0,5 bar) 0 
13 (Durchschnittliche Geschwindigkeit > 20 km \ & 
(Standardabweichung < 1,2 ®) 0 
14 (Durchschnittliche Geschwindigkeit > 15 Km & 
(Standardabweichung < 0,5 €”) 0 
15 (Minimum Geschwindigkeit > 10 ®)& 
(Durchschnittlicher absoluter Lenkwinkel > 45°) 0 
16 (Durchschnittliche Geschwindigkeit > 20 km \ ge 
(Durchschnittlicher absoluter Lenkwinkel > 20°) 0 
17 Durchschnittliche Beschleunigung in x < —1,5 5 1 
18 Minimum absoluter Lenkwinkel > 90° 0 
19 Durchschnittliche Geschwindigkeit < 6 km 1 
20 (Startgeschwindigkeit > 10 #1) & 
(Startgeschwindigkeit < Endgeschwindigkeit) 0 
21 (Durchschnittliche Geschwindigkeit > 15 KM) & 
(Durchschnittliche Beschleunigung in x > —1 %) 0 
22 (Durchschnittliche Geschwindigkeit > 10 KM) & 
(Durchschnittlicher absoluter Lenkwinkel > 75°) 0 
23 Durchschnittlicher Bremsdruck > 5 bar 1 
24 Endgeschwindigkeit > 20 km 0 
25 (Durchschnittliche Geschwindigkeit < 10 KI) & 
(Standardabweichung < 1 mm) 1 
26 Maximum absoluter Lenkwinkel > 180° 0 
27 (Endgeschwindigkeit — 4 km) > Minimum Geschw. 0 
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36 


37 
38 
39 


Regel 
Durchschnittliche Beschleunigung in x < —1 5 
(Aenderung Lenkwinkel > 90°)& 
(Standardabweichung Geschwindigkeit < 2 km ) 
Durchschnittliche Geschwindigkeit > 18 km 
Durchschnittlicher Bremsdruck > 3 bar 
(Durchschnittlicher absoluter Lenkwinkel > 45° )& 
(Bremsdruck < 0,5 bar) 
Durchschnittliche Beschleunigung in x < —0,5 3 
Durchschnittlicher Bremsdruck > 1 bar 
(Durchschnittliche Geschwindigkeit > 12 km \ & 
(Aenderung Geschwindigkeit < 1 km) 
(Durchschnittliche Geschwindigkeit > 10 KI) & 
(Aenderung Geschwindigkeit < 2 KM) & 
(Aenderung Lenkwinkel > 15°) 
Maximum absoluter Lenkwinkel > 20° 
Durchschnittliche Geschwindigkeit > 10 Km 
Durchschnittliche Geschwindigkeit < 10 km 


Halten 
1 


- O O O 
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B.2 Aufgenommene Features 


Tabelle B.2: 
Aufgenomme Signale (FlexRay) für die Fahrerintentionserkennung; Verwendete Features 
für den Algortihmus in fett 


# Signal # Signal 
1 KBI_angez_Geschw 2 ESC_Bremsdruck_02 
3 ESC_Fahrerbremswunsch 4 MO_Fahrpedalrohwert_01 
5 PACC_naechstes_Event 6 ACC_Geschw_Zielfahrzeug 
7 | ACC_Abstand_Abstandswarner 8 ACC_Texte_Sekundaeranz 
9 ACC_Texte_Primaeranz_02 10 LWI_Lenkradwinkel 
11 LWI_VZ_Lenkradwinkel 12 LWI_Lenkradw_Geschw 
13 LWI_VZ_Lenkradw_Geschw 14 BV2_Obj_01_Klasse 
15 BV2_Obj_01_GeschwY 16 BV2_Obj_01_GeschwX 
17 BV2_Obj_01_RadialDist 18 BV2_Obj_01_TTC 
19 BV2_Obj_01_PositionX 20 BV2_Obj_01_PositionY 
21 BV2_Obj_02_Klasse 22 BV2_Obj_02_GeschwY 
23 BV2_Obj_02_GeschwX 24 BV2_Obj_02_RadialDist 
25 BV2_Obj_02_TTC 26 BV2_Obj_02_PositionX 
27 BV2_Obj_02_PositionY 28 BV2_Obj_03_Klasse 
29 BV2_Obj_03_GeschwY 30 BV2_Obj_03_GeschwX 
31 BV2_Obj_03_RadialDist 32 BV2_Obj_03_TTC 
33 BV2_Obj_03_PositionX 34 BV2_Obj_03_PositionY 
35 BV2_Obj_04 Klasse 36 BV2_Obj_04_GeschwY 
37 BV2_Obj_04_GeschwX 38 BV2_Obj_04_RadialDist 
39 BV2_Obj_04_TTC 40 BV2_Obj_04_PositionX 
41 BV2_Obj_04 PositionY 42 BV2_Obj_05 Klasse 
43 BV2_Obj_56_GeschwY 44 BV2_Obj_57_GeschwX 
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Signal 
BV2_Obj_05_RadialDist 
BV2_Obj_05_PositionX 

BV2_Obj_06_ Klasse 
BV2_Obj_06_GeschwX 
BV2_Obj_06_TTC 
BV2_Obj_06_PositionY 
BV2_Obj_07_GeschwY 
BV2_Obj_07_RadialDist 
BV2_Obj_07_PositionX 
BV2_Obj_08_Klasse 
BV2_Obj_08_GeschwX 
BV2_Obj_08_TTC 
BV2_Obj_08_PositionY 
BV2_Obj_09_GeschwY 
BV2_Obj_09_RadialDist 
BV2_Obj_09_PositionX 
BV2_Obj_10_Klasse 
BV2_Obj_10_GeschwX 
BV2_Obj_10_TTC 
BV2_Obj_10_PositionY 
VZE_Verkehrszeichen_2 
VZE_Verkehrszeichen_4 
VZE_Verkehrszeichen_6 
SARA_Accel_Y_b 


Signal 
BV2_Obj_05_TTC 
BV2_Obj_05_PositionY 
BV2_Obj_06_GeschwY 
BV2_Obj_06_RadialDist 
BV2_Obj_06_PositionX 
BV2_Obj_07_Klasse 
BV2_Obj_07_GeschwX 
BV2_Obj_07_TTC 
BV2_Obj_07_PositionY 
BV2_Obj_08_GeschwY 
BV2_Obj_08_RadialDist 
BV2_Obj_08_PositionX 
BV2_Obj_09 Klasse 
BV2_Obj_09_GeschwX 
BV2_Obj_09_TTC 
BV2_Obj_09_PositionY 
BV2_Obj_10_GeschwY 
BV2_Obj_10_RadialDist 
BV2_Obj_10_PositionX 
VZE_Verkehrszeichen_1 
VZE_Verkehrszeichen_3 
VZE_Verkehrszeichen_5 
SARA_Accel_X_b 
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B.3 Bestimmung der geeigneten Länge einer 
Referenzstrecke 


0,001 
0,0009 
0,0008 


0,0007 


Test MSE (Transfer Learning) 


0,0006 


0,0005 
20 40 60 80 100 120 140 


Länge der Trainingsdaten [min] 


Abbildung B.1: Bestimmung der optimalen Länge der Referenzstrecke, nach [185] 


B.4 Vergleich verschiedener 
Netzwerkarchitekturen für das RNN der 
Fahrerintentionserkennung 


Nachfolgend werden verschiedene RNNs und deren Architekturen ge- 
genübergestellt. Nach einer ersten Vorauswahl werden die Netzwerke 
12,57, 60 und 72 mit Hilfe unterschiedlicher CVs und zwei verschiedener 
Datensätze genauer untersucht. Eine Betrachtung mittels CV ist wichtig, 
da die Aufteilung des Datensatzes den größten Einfluss auf die MSE des 
Algorithmus hat. So kann ausgeschlossen werden, dass eine Architektur 
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ausschließlich mit einer Datensatzaufteilung gute Ergebnisse aufweist. 
Die Architektur 72 zeigt im Vergleich mit den anderen RNN-Netzwerken 
stets die niedrigste MSE. Nähere Auswertungen werden von Höß und 
Schleyer beschrieben [182][183]. 
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MSE Een: 
ID [10E- = Ms. ESTM Eingänge dər FC FC Batchsize Kostenf. 
2] Dimensionen Ausgangsschicht # Dimensionen 
1 1,25 3 128-128-64 LSTM 3 1 25 500 MSE 
2 123 3 128-128-64 LSTM 3 1 25 200 MSE 
128-128-64- 
3 1,28 4 64 LSTM 4 1 25 500 MSE 
128-128-64- 
4 1,39 4 64 LSTM 4 1 25 100 MSE 
128-128-64- 
5 1,21 4 64 LSTM4 1 25 100 MSE 
6 1,22 3 128-128-64 LSTM 3 1 25 500 MSE 
7 1,19 3 128-128-64 LSTM 3 T -25 500 MSE 
8 1,28 2 128-128 LSTM 2 T 25 500 MSE 
9 1,36 1 128 LSTM 1 1 25 500 MSE 
10 1,56 3 128-128-64 LSTM 3 1 25 500 MSE 
1141 2,00 3 128-128-64 LSTM 3 1 25 500 MSE 
12 1,91 3 128-128-64 LSTM 3 1 25 500 MSE 
128-128-64- 
13 1,84 4 64 LSTM 4 1 25 500 MSE 
128-128-64- 
14 2,08 4 64 LSTM 4 1 25 500 MSE 
128-128-64- 
15 2,07 4 64 LSTM 4 1 25 500 MSE 
128-128-64- 
16 1,99 4 64 LSTM 4 1 25 500 MSE 
128-128-64- 
171,91 4 64 LSTM4 1 25 500 MSE 
18 2,00 3 128-128-64 LSTM 3 1 25 500 MSE 
19 2,00 3 128-128-64 LSTM 3 1 25 500 MSE 
20 1,91 3 128-128-64 LSTM 1-3 2  Sig128-25 500 MSE 
21 1,93 3 128-128-64 LSTM 1-3 2  Sig128-25 500 MSE 
128-128-64- 
22 1,88 4 64 LSTM 1-4 2  Sig128-25 500 MSE 
128-128-64- 
23 1,90 4 64 LSTM 1-4 2  Sig128-Sig25 500 MSE 
128-128-64- 
24 1,93 4 64 LSTM 1-4 2  Sig128-Sig25 500 MSE 
128-128-64- 
25 1,90 4 64 LSTM 1-4 2  Sig128-Sig25 500 MSE 
128-128-64- 
26 1,88 4 64 LSTM 1-4 2  ReLu128-Sig25 500 MSE 
128-128-64- Relu128- 
27 1,90 4 64 LSTM 1-4 3  ReLu128-Sig25 500 MSE 
128-128-64- Relu128- 
28 1,96 4 64 LSTM 1-4 3  ReLu128-Sig25 500 MSE 
128-128-64- Relu128- 
29 1,90 4 64 LSTM 1-4 3  ReLu128-Sig25 500 MSE 
Relu128- 
30 1,92 3 128-128-64 LSTM 1-3 3  ReLu128-Sig25 500 MSE 
Relu128- 
31 2,01 3 128-128-64 LSTM 1-3 3  ReLu128-Sig25 500 MSE 
Relu128- 
32 1,92 3 128-128-64 LSTM 1-3 3  ReLu128-Sig25 500 MSE 
Relu128- 
33 2,00 3 128-128-64 LSTM 1-3 3 ReLu128-Sig25 500 MSE 
Relu128- 
34 1,52 3 128-128-64 LSTM 1-3 3  ReLu128-Sig25 500 MSE 
Relu128- 
35 1,90 3 128-128-64 LSTM 1-3 3  ReLu128-Sig25 500 MSE 
Relu128- 
36 2,00 3 128-128-64 LSTM 1-3 3  ReLu128-Sig25 500 MSE 
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37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 


53 


54 


55 


56 


57 


58 
59 


60 


61 


62 


63 


64 
65 
66 
67 
68 
69 
70 
71 


1,78 
1,75 
1,84 
1,81 
1,88 
1,84 
1,79 
1,80 
1,80 
1,84 
1,84 
1,78 
1,89 
1,77 
2,55 
1,77 


1,79 


1,75 


1,81 


1,78 


1,78 


5,35 
2,06 


1,96 


1,80 


9,12 


1,86 


3,04 
1,82 
1,86 
1,76 
1,80 
1,78 
1577 
1,78 


wo 


RRR RR RAR 


128-128-64 
128-128-64 
128-128-64- 
64 
128-128-64- 
64 
128-128-64 
128-128-64 
128-128-64 
128-128-64 
64-64-32 
64-64-32 
64-64-32-32 
64-64-32-32 
64-64-32-32 
64-64-32-32 
32-32-32-32 
64-64-64-64 


128-64-32-32 


64-64-32-32 


64-64-64 


64-64-64 


64-64-64-64 


64-64-64-64 
64-64-64-64 


64-64-64-64 


64-64-64-64 


64-64-64-64 


64-64-64 


64-64-64-64 
64-64-64-64 
64-64-64-64 
64-64-64-64 
64-64-64-64 
64-64-64-64 
64-64-64-64 
64-64-64-64 


LST 


LST 


LST 


LST 
LST 
LST 
LST 
LST 
LST 
LST 


TM 1-3 
TM 1-3 
TM 1-4 
TM 1-4 
TM 1-3 
TM 1-3 
TM 1-3 
TM 1-3 
TM 1-3 
TM 1-3 
TM 1-4 
TM 1-4 
TM 1-4 
TM 1-4 
TM 1-4 
TM 1-4 


TM 1-4 


TM 1-4 
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WEITERE ERGEBNISSE ZUR FAHRERINTENTIONSERKENNUNG 


72 4,77 4 64-64-64-64  LSTM 1-4, in 2 $ig128-Sig25 500  LogLoss 

73 1,79 4 64-64-64-64  LSTM 1-4, in 2  Sig64-Sig25 500 LogLoss 

74 1,81 4 64-64-64-64  LSTM 1-4, in 2 Sig256-Sig25 500 LogLoss 
Sig128-Sig64- 

75 1,81 4 64-64-64-64  LSTM 1-4, in 3 Sig25 500  LogLoss 
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BESTIMMUNG DER LÄNGE FÜR DIE EINGANGSSEQUENZEN 


B.5 Bestimmung der Länge für die 
Eingangssequenzen der 
Fahrerintentionserkennung 
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Abbildung B.2: Bestimmung einer optimalen Sequenzlänge für die Eingänge des RNN, 
nach [182] 
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